Hiện nay, các mô hình học máy cũng như các mô hình học sâu đã được ứng dụng trong việc phát hiện thu rác dựa trên nội dung cua thu gửi đi nhưng chủ yếu được huấn luyện dựa trên nội dung
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
————%›2#*€Œ§————
NGÔ THANH BÌNH
PHAT HIỆN THU RAC TIENG VIET SỬ DUNG
CAC MO HÌNH HOC SAU
LUẬN VĂN THAC SĨ
NGÀNH CÔNG NGHỆ THÔNG TIN
Mã số: 8.48.02.01
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS NGUYEN TAN CAM
TP HO CHÍ MINH - NAM 2024
Trang 2Lời cam đoan
Tôi xin cam đoan luận văn này là do tôi thực hiện duéi sự hướng dẫn của thầy
TS Nguyễn Tan Cam, không có sự sao chép bắt kỳ phần nội dung nảo từ các
luận văn khác Những nội dung trích dẫn sử dụng trong luận văn đều được dẫn nguồn tham khảo đầy đủ.
TP HCM, ngày thang năm
Tác giả luận văn
Ngô Thanh Bình
Trang 3Lời cảm ơn
Tôi xin chân thành cảm ơn thay TS Nguyễn Tan Cầm đã nhiệt tình hướng dan
và đưa ra các định hướng giúp tôi hoàn thành luận văn này Do kiến thức, kinh
nghiệm còn nhiều hạn chế nên không tránh khỏi những thiếu sót, rất mong nhận được ý kiến góp ý quý báu từ quý thay cô.
Tôi cũng xin gửi lời cảm ơn đến gia đình, bạn bè, đồng nghiệp đã luôn bên
cạnh, tạo điều kiện tốt nhất cho tôi hoàn thành luận văn này.
Trang 41.1 _ Giới thiệu về thư điện tử ccccrktrrrrkrirrttrrirrrtrirrrrirreriied 7
IS (ii thu 2 ae 7 1.3 Tác hại của thư rac - -ĂĂc S11 vn kg, 7 1.4 Các giải pháp ngăn chặn thư rac - - 5c 23c 3+ +vEEeeeeeeresereeee 8 1.5 Các đặc trưng của thư TắC - - ch rrn 10
1.6 Những thách thức trong xây dựng bộ dữ liệu thư rác tiếng Việt 10
1.7 _ Phát biểu bài toán và đóng góp của luận văn - 2-2 2+c++cz+sz+sz 11
Chương 2 CAC NGHIÊN CUU LIÊN QUAN 2- 2 2+e+x+szxserxez 12
Chương 3 GIẢI PHÁP DE XUẤT ccc:-+cccveerrrrrrerrrrrrrrerrree 18
3.1 _ Nguyên lý mô hình hệ thống đề xuất - 2 2 +z+++£++zxzrszrxeee 18
3.2 Phương pháp thực hiỆn - - 5< k9 TH TH ng nh ớt 19
3.2.1 Xây dựng bộ dữ liệu thư rác tiếng As or 19
3.2.2 Ứng dung các mô hình học sâu - 2-2 2 2 +2 ++££+E++Ezx++xezreez 23
3.2.2.1 M6 hinh À/i/À/.1 23
3.2.2.2 Mô hình mang CÌNN - cv ng ky 23 3.2.2.3 Mô hình mạng BILSTÌM .- - G S1 vn ng re, 26 3.2.2.4 Mô hình mạng PhoBlEiÏT - - - - - + + k1 9k ve 28 3.2.2.5 Ham kích hoOạt - - cv nnHnHnHnHnHnHnn HH nnưệp 31
3.2.2.6 Hàm độ lỗi 5s như ưn 31
Trang 53.2.3 Danh gid m6 0i 32 3.3 Giải thuật thực Win o cceeccecscessessssessesssesssecssecssecssesssesssessuessesssesssecssecasecsses 34
3.3.1 Sơ đồ giải thuật xây dựng bộ dữ liệu thư rác tiếng Việt 34
3.3.2 Sơ đồ giải thuật huấn luyện mô hình Word2Vec -. -: 36
3.3.3 Sơ đồ giải thuật huấn luyện mô hình CNN 2-2 25255: 38
3.3.4 Sơ đồ giải thuật huấn luyện mô hình BiLSTM - 41
3.3.5 Sơ đồ giải thuật hiệu chỉnh mô hình PhoBERT -<- 43
Chương 4 KET QUÁ THUC NGHIỆM 2-2 2 22 ++£++E++E++E++zezreee 45
4.1 Xây dựng bộ dữ liệu thư rác tiếng „ ằằ 45
4.2 Huan luyện các mô hình ¿+ + ++2+++E++Ex++E++Exzx+zrxerxrzreerxees 49
4.2.1 Môi trường huấn luyỆn - +22 ©++E+EE+EE+EE£EEEEEEEEEEEEEkrrerrerree 49
4.2.2 Huấn luyện mô hình: - ¿2 2+++SE++EE+EE£+E++EEeEE++Exerxerxerrxerxee 49
4.2.3 Kết quả huấn luyện + t+SE+SEEEESEEEEEEEESEEEEEEEEEEEEEEEEErrkrrkrree 49
4.3 Kết quả dự đoán .-cc St St E1 1111211211211 111 1111111 xe, 52
Chương 5 KÉT LUẬN VÀ HƯỚNG PHAT TRIÊN 2-5222 s22 54
5.1 KẾtluận Ă 2c 2 S22 HE Hee 54
5.2 _ Hướng phát triỂn -©£©<+EkSEE2EEEEEEEE2E1E71E211211 21x crveeg 55
TÀI LIEU THAM KHẢO - - 2 2 ©5£+S£+EE£EEE£EE£EEEEEEEEEEEEEEEEEECEEEEEEErkrrkrrkee 56
Trang 6Danh mục các ký hiệu và chữ viet tat
EML Electronic Mail Format
CSV Comma Separated Values
BOWs Bag of Words
TF-IDF Term Frequency - Inverse Document Frequency
CBOWs Continuous Bag of Words
DNN Deep Neural Network
CNN Convolutional Neural Network
RNN Recurrent Neural Network
LSTM Long Short-Term Memory
BiLSTM Bidirectional Long Short-Term Memory
BERT Bidirectional Encoder Representations from Transformers
USDM Universal Spam Detection Model
SMS Short Message Service
LIME Local Interpretable Model-agnostic Explanations
Trang 7Danh mục các bảng
Bang 1.1 Các đặc trưng của nội dung thư rắC c5 + * + *+Eseeeerreeeeerreree 10
Bang 2.1 Bảng thống kê các nghiên cứu liên quan - 2-2 2+sz+sz+sz2se+s++‡ 14
Bang 3.1 Thông tin bộ dữ liệu thư rác tiếng Việt sau khi xử lý -: 22Bang 3.2 Giá trị hàm độ lỗi 555 S223 233 1211121121211 11.1 xe, 32
Bang 3.3 Các trường hợp dự đoán - - - - 1131 319119 1191 9111 11 1 ng 33 Bảng 4.1 Bang so sánh độ đo của các mô hình - 5 25+ +svseerseeeee 51
Bang 4.2 Bang so sánh thời gian huấn luyện các mô hình -z 52Bang 5.1 Tổng hợp nhận xét kết quả các mô hình oo eeececsesseessessesssesseeseessesseeseesen 54
Trang 8Danh mục các hình vẽ, đồ thị
Hình 1.1 Mô tả bài toán phát hiện thư rác tiếng Việt -¿- 2 52©5225scc5e2 11 Hình 3.1 Mô hình hệ thống đề xuất 2-2 2 £+S££S++E£+E++E+EE+EzEezrzrerreee 18
Hình 3.2 Quá trình xây dung bộ dữ liệu thư rác tiếng VIỆT ccSS Son 20 Hình 3.3 Kiến trúc cơ bản của mạng CNN -¿- 2-52 2+S++E2E2EzErErrerreee 24
Hình 3.4 Phép tích chập và phép tong hợp trong xử lý ảnh xám - 25
Hình 3.5 Mô hình mạng CNN ứng dụng phát hiện thư rác tiếng VIỆ( - 25
Hình 3.6 Kiến trúc mạng L.STM 2 2£ S©++2EE+EEE2EEESEEESEEESEkezrxrrrrrrrree 27 Hình 3.7 Mô hình mạng BiLSTM ứng dung phát hiện thư rác tiếng Việt 28
Hình 3.8 Mô hình PhoBERT ứng dụng trong phát hiện thư rác tiếng Việt 30
Hình 3.9 Đồ thị biễu diễn Hàm Sigmoid - 2-2 2 2 2+2 £+2EE+E£2E+zEzzEzzrxez 31 Hình 3.10 Sơ đồ giải thuật quá trình xây dựng bộ dữ liệu thư rác tiếng Việt 34
Hình 3.11 Sơ đồ giải thuật huấn luyện mô hình Word2 Vec : 36
Hình 3.12 Sơ đồ giải thuật mô hình CNN phát hiện thư rác tiếng Việt 38
Hình 3.13 Sơ đồ giải thuật mô hình BiLSTM phát hiện thư rác tiếng Việt 41
Hình 3.14 So đồ giải thuật mô hình PhoBERT phát hiện thư rác tiếng Việt 43
Hình 4.1 Nội dung mẫu bộ dữ liệu thư rác tiếng Việt sau xử lý - 45
Hình 4.2 Thống kê phân loại các loại thư thông thường . ¿¿- 5+¿ 46 Hình 4.3 Thống kê phân loại các loại thư rác phô biến -.: ¿ ¿©5z©55+¿ 41 Hình 4.4 Biéu đồ phân bố độ dài của các thư thông thường 2-2-5: 48 Hình 4.5 Biéu đồ phân bố độ dài của các thư rác 2-2 s+z+sz+sz+zzxzzxxee 48 Hình 4.6 Kết quả huấn luyện các mô hình - 2-2 2 + +2 s+++++£++xzxzzxeez 50 Hình 4.7 Biểu đồ so sánh độ đo của các mô hình :¿-©++¿+cc+vrsrrxves 5I Hình 4.8 Biểu đồ so sánh thời gian huấn luyện các mô hình - - 52
Hình 4.9 Diễn giải dự đoán của mô hình phát hiện thư rác tiếng VIỆ( 53
Trang 9MỞ ĐẦU
TÓM TÁT - Ra đời từ những ngày đầu của mạng máy tính, trải qua nhiều nâng cấp
và cải tiễn, thư điện tử ngày nay vẫn là một phương thức trao đồi thông tin chính thứcđược sử dụng rộng rãi bởi các cá nhân và tô chức trên toàn thế giới Bên cạnh những
lợi ích to lớn mà thư điện tử mang lại, thư điện tử cũng bị lạm dụng và sử dụng như một công cụ phục vụ cho các mục đích khác nhau trên môi trường mạng máy tính như gửi thư lừa đảo, thư nặc danh, thư quảng cáo, thư xin tài trợ Những thư này
người nhận không mong muốn nhận nên được gọi là thư rác hay SPAM Đề phân biệtvới thư rác, thuật ngữ HAM được sử dụng dé chỉ thư ma người nhận mong muốn
nhận hay không phải thư rác Thu rác thường gây cảm giác khó chịu khi người sử
dụng nhận được chúng hoặc thậm chí gây ra những ton hại nhất định cả về vật chất
và tinh thần nếu người sử dụng trở thành mục tiêu của những kẻ lừa đảo Chính vìvậy, nhiều giải pháp đã được phát triển dé phát hiện thư rác hiệu quả hơn Trong đó,
các mô hình học máy cũng như các mô hình học sâu đã được ứng dụng để phát hiện
thư rác và đạt được độ chính xác cao Tuy nhiên, các mô hình này phần lớn đều đượchuấn luyện trên bộ dữ liệu tiếng Anh nên chỉ có khả năng phát hiện được thư rác tiếngAnh, chưa có bộ dữ liệu thư rác tiếng Việt dé huấn luyện mô hình phát hiện thư ráctiếng Việt Luận văn này trình bày việc xây dựng bộ dữ liệu thư rác tiếng Việt và ứngdụng các mô hình học sâu gồm CNN, BiLSTM và PhoBert để huấn luyện mô hìnhphát hiện thư rác tiếng Việt Kết quả so sánh cho thấy, các mô hình học sâu này đềucho kết quả phát hiện thư rác tiếng Việt với độ chính xác cao Kết quả huấn luyện chothấy độ chính xác của các mô hình lần lượt là CNN 88.42%, BiLSTM 83.03% và
PhoBert 86.47%.
Tw khóa - Phát hiện thu rac, CNN, BiLSTM, PhoBert.
Trang 10Chương 1 GIỚI THIỆU
1.1 Giới thiệu về thư điện tử
Thư điện tử thường được gửi từ người gửi đến một hoặc nhiều người nhận thông quamôi trường mạng máy tính Mỗi thư điện tử gồm có mục chủ đề và mục nội dung đểngười gửi có thể soạn thảo nội dung mong muốn trước khi gửi đi Đây được xem nhưmột phương thức trao đôi thông tin chính thức giữa các cá nhân và tổ chức trên toànthé giới Người sử dụng chỉ cần có một máy tính hay thiết bị điện thoại thông minh
có kết nỗi mang máy tính là có thé sử dụng tài khoản thư điện tử dé gửi thư một cách
nhanh chóng và tiện lợi Bên cạnh những lợi ích to lớn mà thư điện tử mang lại, thư
điện tử cũng bị lạm dụng như một công cụ để gửi thư cho người dùng phục vụ chocác mục đích thương mại cũng như các mục đích xấu như tấn công lừa đảo Đây lànhững thư mà người dùng không mong muốn nhận nên từ đó đã hình thành khái niệmthư rac hay SPAM Dé phân biệt với thư rác, thuật ngữ HAM được sử dụng dé chỉ
thư mà người nhận mong muôn nhận hay không phải thư rác.
1.2 Khai niệm thư rác
Thư rác hay SPAM là những thư được gửi hàng loạt đến một danh sách những người
nhận phục vụ cho các mục đích khác nhau Thư rác có thê được gửi từ các công ty tô
chức dé quảng cáo cho các sản phâm dich vụ mới cũng như gửi các thông tin ưu đãi,khuyến mãi Các loại thư rác khác là các loại thư lừa đảo, nặc danh và thường đượcgửi số lượng lớn đến người dùng thông qua mạng các máy tính bị nhiễm phần mềmđộc hại và đã bị kẻ tấn công chiếm quyền điều khiển Các loại thư này người dùng
không mong muôn nhận nên được gọi là thư rác.
1.3 Tac hại của thư rác
Thư rác đã trở thành một van nạn đối với tất cả cá nhân và tô chức trên toàn thé gidi.Theo số liệu thống kê gần đây được đăng tai bởi DataProt [3], một trang web đánhgiá độc lập chuyên cung cấp thông tin chính xác về các sản phẩm an ninh mạng khácnhau thi gần 56,5% tổng số thư điện tử năm 2022 là thư rác mà chủ yếu là thư quảngcáo Thư quảng cáo thường làm mắt thời gian và công sức của người nhận khi nhận
được những thư nảy vì người nhận phải lướt qua thư nhận được trước khi xác định
đây là thư rác Theo số liệu thống kê và phân tích về thư rác có được bởi Kaspersky
7
Trang 11Security Network [6], một nhân viên có thé mat khoảng hai ngày làm việc mỗi năm
để đọc qua các loại thư rác mà họ nhận được Điều này gây lãng phí tài nguyên củacác tô chức khi phải chi trả chi phí nhân viên mà không phục vụ cho công việc Thêmvào đó, thư quảng cáo có thê làm người nhận mắt tập trung trong công việc bởi nhữngnội dung trong thư quảng cáo thường hấp dẫn, gây cảm giác ấn tượng dé kích thích
người dùng mua các sản phâm, dịch vụ.
Bên cạnh thư quảng cáo, các loại thu xin tai trợ, thư nặc danh, thư lừa đảo cũng là
các loại thư rác phổ biến mặc dù tần suất gửi có ít hơn so với thư quảng cáo Thư xintài trợ thường gây cảm giác phiền toái và làm mất thời gian của người nhận khi nhậnđược những thư rác này vì không phải cá nhân hay tổ chức nào cũng có đủ năng lựctài chính để tài trợ Đối với thư nặc danh, những thư này thường được gửi để xúc
phạm nhân phẩm của một người nào đó hoặc gửi thư đòi nợ cho những người liên
quan với người vay nợ khi người cho vay không liên hệ được với người vay nợ dédoi nợ Thư nặc danh thường có nội dung khiếm nhã để xúc phạm người khác hoặcthậm chí dùng lời lẽ de dọa người nhận Điều này cũng gây sự phiên toái, thậm chígây cảm giác lo sợ cho những người nhận được thư rác này Nghiêm trọng nhất là khi
người nhận nhận được các loại thư lừa đảo Những thư lừa đảo thường dẫn dụ người
nhận nhắn vào các đường dẫn liên kết trong thư dé lừa đánh cắp thông tin tài khoảnthư điện tử, thông tin tài khoản ngân hàng, cài đặt phần mềm độc hại vào máy tínhhoặc điện thoại của người nhận, nhằm chiếm đoạt thông tin, dữ liệu, tài sản của
người nhận Nếu người nhận chăng may nhấn vào đường dẫn liên kết trong thư thì
thông tin, dữ liệu, tài sản của người nhận có thê bị đánh cắp Điều này gây ra những
tốn hại nhất định về vật chất cũng như tinh thần cho người nhận Đặc biệt, nó có thể
phá hoại uy tín và hình ảnh của một tô chức khi thông tin, dữ liệu của tổ chức đó bị
lộ lọt ra ngoài Từ đó nó có thể ảnh hưởng nghiêm trọng đến hoạt động kinh doanh
của t6 chức đó
1.4 Các giải pháp ngăn chặn thư rác
Nhiều giải pháp khác nhau đã được áp dụng để bảo vệ người dùng khỏi thư rác Các
giải pháp ngăn chặn thư rác truyền thống thường được sử dụng là tạo các bộ lọc đánh
giá dựa trên điểm dé phân loại thư rác, xác thực người gửi, kiểm tra danh sách thư
Trang 12điện tử đen, danh sách máy chủ gửi thư điện tử đen, nhận đánh giá thư từ người sử
dụng, đảo tạo về nhận thức an ninh thông tin trong việc sử dụng thư điện tử cho ngườidùng, Bắt đầu từ năm 2024, dé bảo vệ người dùng khỏi thu rác và chống lai các
mỗi de doa phức tạp từ thư điện tử, Gmail [4] đã yêu cầu các tổ chức khi gửi thư vào
Gmail phải sử dụng các giải pháp xác thực nguồn gốc thư được gửi đi, trong nội dungthư điện tử có tùy chọn cho phép người nhận từ chối nhận thư nếu muốn và đặc biệt
phải duy trì tỷ lệ thư rác do người dùng báo cáo ở ngưỡng dưới 0.1% và tránh vượt
quá 0.3% Những yêu cầu này sẽ ảnh hưởng đến tất cả cá nhân và tô chức gửi thư đếnngười nhận có tài khoản thư điện tử trên Google trên toàn thế giới Nếu không đápứng các yêu cầu này, thư gửi từ các cá nhân và tô chức sẽ bị Google từ chối nhậnhoặc bị đánh dấu là thư rác Yahoo và AOL cũng có chính sách tương tự như Googlenhằm bảo vệ người dùng của họ khỏi thư rác và chống lại các mối de dọa phức tạp từ
thư điện tử Google, Yahoo và AOL là ba nhà cung cấp dịch vụ thư điện tử chiếm
phan lớn thị phần thư điện tử của người sử dụng trên toàn thé giới
Mặc dù nhiều giải pháp kỹ thuật đã được áp dụng đề ngăn chặn thư rác nhưng điềuquan trọng nhất đề xác định một thư điện tử là thư rác hay không vẫn nằm ở nội dungcủa thư gửi đến người dùng Hiện nay, các mô hình học máy cũng như các mô hình
học sâu đã được ứng dụng trong việc phát hiện thu rác dựa trên nội dung cua thu gửi
đi nhưng chủ yếu được huấn luyện dựa trên nội dung thư tiếng Anh, thiếu dữ liệuhuấn luyện dựa trên thư tiếng Việt Luận văn này sẽ trình bày việc xây dựng bộ dữliệu thư rác tiếng Việt và ứng dụng các mô hình học sâu gồm CNN, BiLSTM va
PhoBert dé huấn luyện mô hình phát hiện thu rác tiếng Việt Bộ dữ liệu thư rác tiếng
Việt sau khi được thu thập sẽ được tiền xử lý nhằm loại bỏ các từ, số, dấu câu, biểutượng, đường dẫn liên kết, địa chỉ thư điện tử, mà không có nhiều ý nghĩa trong xử
lý dé phát hiện thu rác tiếng Việt Dữ liệu sau đó sẽ được biểu diễn bằng vector số
trước khi đưa vào các mô hình học sâu phục vụ cho quá trình huấn luyện Có nhiều
phương pháp đề biéu diễn nội dung văn bản như thư điện tử sang biểu diễn vector số
Mô hình Word2Vec được chọn để biểu diễn vector số cho các mô hình học sâu CNN
và BiLSTM để phát hiện thư rác tiếng Việt bởi vì Word2Vec có khả năng biểu diễn
được ngữ cảnh của từ Bên cạnh đó, PhoBERT [9], một mô hình ngôn ngữ lớn dựa
trên BERT đã được tiền huấn luyện cho ngôn ngữ tiếng Việt được sử dụng để so sánh
9
Trang 13và đánh giá kết quả thử nghiệm với các mô hình CNN và BiLSTM Kết quả so sánhcho thấy, các mô hình học sâu này đều cho kết quả phát hiện thư rác tiếng Việt với
độ chính xác cao trên bộ dữ liệu thư rác tiếng Việt thu thập được
1.5 Các đặc trưng của thư rác
Các thư rác thường có những đặc trưng khác nhau đề giúp phân biệt thư rác và thư
thông thường Hai đặc trưng chính là dựa vào thông tin địa chỉ gửi không xác định
hoặc giả mạo và dựa trên nội dung truyền tải của thư Trong phạm vi của luận văn
này, các đặc trưng về nội dung truyền tải của thư (gồm chủ dé và nội dung) được tríchxuất dé đưa vào các mô hình học sâu huấn luyện Các đặc trưng [15] về nội dungtruyền tải của thư dé phân biệt thư rác được tổng hợp trong Bang 1.1 như sau:
Bảng 1.1 Các đặc trưng của nội dung thư rác
Thư có nội dung mang tinh khan cấp
3 | dé dẫn dắt người dùng thực hiện một
hành động nào đó.
Mật khâu của bạn sẽ hết hạn ngày hôm nay Hãy bam vào đường dan sau để thay đổi ngay NHÂN VÀO ĐÂY
Thư có nội dung yêu cầu người nhận
4 | cung cấp thông tin cá nhân hoặc tài
khoản.
Hộp thư bạn đã vượt quá giới hạn lưu trữ.
Hãy cung cấp: Tên, Tên người dùng, Mật khẩu, Thư điện tử, Điện thoại Nếu bạn không
cung câp, hộp thư của bạn sẽ bị vô hiệu hóa.
Thư chứa nội dung dẫn dắt người
5 | dùng nhấn vào đường dẫn liên kết
hoặc tập tin đính kèm độc hại.
Kích hoạt tài khoản của bạn ngay bây giờ đề tránh bị vô hiệu hóa BAM VÀO DAY DE KÍCH HOẠT TÀI KHOẢN CỦA BẠN
1.6 Những thách thức trong xây dựng bộ dữ liệu thư rác tiếng Việt
Với sự phát triên của công nghệ, thư rác xuât hiện ngày càng nhiêu và nội dung cũng trở nên đa dạng hơn, nhăm tới nhiêu đôi tượng người dùng khác nhau Do đó, việc
phát hiện thư rác tiếng Việt cũng gặp những thách thức nhất định Thứ nhất là nội
10
Trang 14dung thư rác ngày càng đa dạng, đặc biệt là các loại thư quảng cáo chiếm thị phầnlớn nên cũng gặp khó khăn trong việc phân loại phát hiện thư rác Đề giải quyết tháchthức này thì cần hơn nữa sự báo cáo thư rác từ người dùng dé có dữ liệu huấn luyện
cho các mô hình phát hiện thư rác Thách thức thứ hai là nội dung thư rác cũng thay
đối liên tục nhằm vượt qua các hệ thống phát hiện thư rác dé gửi tới người dùng Vìvậy, các hệ thống phát hiện thư rác cũng cần phải cập nhật liên tục dé phát hiện được
thư rác một cách hiệu quả hơn.
1.7 Phát biểu bài toán và đóng góp của luận văn
Bài toán phát hiện thư rác tiếng Việt là bài toán phân loại nhị phân gồm hai lớp là lớpthư rác (ký hiệu là 1) và lớp thư thông thường (ký hiệu là lớp 0) như Hình 1.1 Đầuvào của bài toán là nội dung của thư điện tử tiếng Việt (bao gồm chủ đề và nội dungcủa thư điện tử) Hệ thống xử lý sẽ thực hiện rút trích đặc trưng từ đầu vào và đưa
vào các mô hình học sâu dé thực hiện phân loại Hệ thống sau xử lý sẽ cho kết quả
đầu ra là thư thông thường hay thư rác thông qua xác suất dự đoán Nếu xác suất dựđoán một thư là lớn hơn hoặc bằng 0.5 thì đây là thư rác và ngược lại, nếu xác suất
dự đoán một thư là nhỏ hơn 0.5 thì đây là thư thông thường Từ đó, hệ thống có thểphát hiện được thư rác tiếng Việt
aa = CAPNHATHOPTHUCS /Ð Oo x Thu thong
File Message Help thuong
@ Agostinho Francisco Langa Junior <Agostint
Không gian tin nhắn của ban đã day và cần được cập nhật ngay bây giờ bằng cách nhấp vào liên kết cập nhật nay:.
https://cp0.brizy.site/ <->
Lưu ý: Nếu ban không thé nhấp vào liên kết, bạn nên sao chép TN
va dán nó vào trình duyệt mới dé tăng dung lượng hộp thư cho
bản cập nhật x
Đầu vào Hệ thống xử lý Đầu ra
Hình 1.1 Mô tả bài toán phát hiện thư rác tiếng Việt
Đóng góp của luận văn này là đã xây dựng được bộ dữ liệu về thư rác tiếng Việt và
có thể ứng dụng trong các hệ thống phát hiện thư rác tiếng Việt, góp phần ngăn chặn
vân nạn thư rác.
11
Trang 15Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN
Nhiều cơng trình nghiên cứu liên quan đã ứng dụng các mơ hình học máy cũng nhưcác mơ hình học sâu dé phát hiện thư rác Các nghiên cứu này chủ yếu thực hiện trên
ngơn ngữ tiếng Anh bởi sự thơng dụng của ngơn ngữ tiếng Anh và các bộ dữ liệu về
thư rác tiếng Anh đã được xây dựng trước đĩ Trong đĩ, AbdulNabi va Yaseen [1]
đề xuất việc hiệu chỉnh mơ hình BERT đã được tiền huấn luyện dé phat hién thu rac.Các tác gia sử dung hai bộ dữ liệu mã nguồn mở bằng tiếng Anh gồm “Spam Filter”
từ Kaggle và “Spambase” từ kho lưu trữ học may UCI Cả hai bộ dữ liệu đều cĩ sốlượng mẫu thư thơng thường và thư rác khơng cân bằng nên tác giả đã chọn ngẫu
nhiên từ hai bộ dữ liệu dé tạo ra bộ dit liệu mới gồm 2000 mẫu thư rác và 3000 mau
thư thơng thường phục vụ cho việc huấn luyện mơ hình và sử dụng các mẫu cịn lạicủa bộ dữ liệu “Spambase” xem như là các dữ liệu chưa được biết để kiểm tra mơhình Mơ hình đề xuất được so sánh với mơ hình học sâu BiLSTM và hai mơ hìnhhọc máy khác là K-Nearest Neighbors và Nạve Bayes Kết quả các mơ hình học sâu
cho độ chính xác cao hơn các mơ hình học máy truyền thống và mơ hình dựa trên
BERT cho độ chính xác cao hơn BiLSTM bởi khả năng biểu diễn theo ngữ cảnh hai
chiều của BERT Do sự giới han của tài nguyên tính tốn nên chiều dai của nội dungthư điện tử đưa vào mơ hình là 300 và độ chính xác của mơ hình đề xuất đạt 98.67%
và điểm F1 đạt 98.66% Kết quả cĩ thé được cải thiện hơn trong tương lai khi chiều
đài của nội dung thư điện tử đưa vào mơ hình khơng bị giới hạn.
Siddique và cộng sự [12] đề xuất mơ hình phát hiện thư rác tiếng Urdu, một loại ngơnngữ ở các nước Nam Á, đặc biệt là Pakistan Phương pháp đề xuất sử dụng hai mơ
hình học máy (Nạve Bayes và Support Vector Machine) và hai mơ hình học sâu
(LSTM va CNN) Do khơng cĩ bộ dir liệu huấn luyện bằng tiếng Urdu nên các tácgiả đã thu thập các bộ đữ liệu thư rác tiếng Anh từ Kaggle cũng như kho lưu trữ họcmáy UCI và chuyền sang tiếng Urdu băng cách sử dụng giao diện lập trình ứng dụngGoogleTrans của Google Kết quả tạo được bộ dữ liệu gồm 5000 thư điện tử phânloại như là thư rác và thư thơng thường trong tiếng Urdu Dữ liệu sau đĩ được tiền
xử lý và trích xuất đặc trưng để đưa vào các mơ hình học máy và các mơ hình học
sâu dé huấn luyện Kết quả cho thấy mơ hình học sâu LSTM đạt độ chính xác cao
12
Trang 16nhất ở mức 98.4% trong việc phát hiện thư rác tiếng Urdu nhưng thời gian huấn luyệncũng lâu hơn Do không có bộ đữ liệu thư rác băng tiếng Urdu nên việc biên dịch từtiếng Anh sang tiếng Urdu có những giới hạn nhất định trong việc biéu diễn ngữ cảnhcủa ngôn ngữ Trong tương lai, các tác giả đề xuất cần phải xây dựng bộ đữ liệu thưrác bằng tiếng Urdu để có được kết quả chính xác hơn.
Tida và Hsu [13] đề xuất mô hình USDM dựa trên mô hình BERT được tiền huấnluyện dé phân loại thư rac Các kết quả nghiên cứu trước đây thường cho kết quả khácnhau trên các bộ dữ liệu khác nhau Một mô hình có thể đạt được độ chính xác caotrên một bộ dữ liệu nhất định nhưng độ chính xác lại không cao trên một bộ dữ liệukhác Do đó, các tác giả đã đề xuất kết hợp các bộ dữ liệu lại trong việc huấn luyện
mô hình Bộ di liệu sử dụng trong mô hình này gồm bốn bộ dữ liệu thư rác bằngtiếng Anh gồm “Enron”, “Spamassassin”, “Lingspam”, và “Spamtext” được kết hợplại với nhau Mô hình sử dụng bộ dữ liệu kết hop này được tinh chỉnh các siêu tham
số dựa trên siêu tham số của các mô hình sử dụng bộ dir liệu riêng biệt và đạt đượckết quả tốt hơn so với những mô hình được huấn luyện trên các bộ dữ liệu riêng lẻ
Độ chính xác của mô hình đạt 97% và điểm F1 là 97% Mô hình này cũng có théđược mở rộng cho các ứng dụng khác nhau như hệ thống phát hiện tin giả trong cácnên tang mạng xã hội Mô hình cũng cần được đánh giá thêm khi kết hợp thêm nhiều
bộ đữ liệu khác nhau đề chứng minh mức độ hiệu quả của nó
Dé góp phan chống tin nhắn rác tiếng Việt, các tác giả [14] đề xuất mô hình là sự kếthợp giữa việc sử dụng mô hình học sâu DNN và PhoBERT được tiền huấn luyện déphat hién tin nhắn rác tiếng Việt Bộ dữ liệu sử dụng trong mô hình là các tin nhắntiếng Việt được thu thập từ các người dùng cá nhân trên các nền tảng hệ điều hành vàthiết bị khác nhau Bộ đữ liệu này gồm 5113 tin nhắn, trong đó 52% là tin nhắn rác
và 48% là tin nhắn thông thường Bên cạnh biéu diễu vector của tin nhắn thông quaPhoBert, tác giả bé sung thêm hai đặc trưng về số lượng từ và số lượng ký tự của tinnhắn rồi thực hiện chuẩn chuẩn hóa và đưa vào mô hình huấn luyện Đề đánh giá hiệu
quả của mô hình, các tác giả đã thử nghiệm bộ dữ liệu này với các mô hình học máy (Support Vector Machine, Naive Bayers và K-Nearest Neighbors) và một mô hìnhhọc sâu là CNN Kết quả cho thấy mô hình đề xuất đạt độ chính xác cao so với các
mô hình khác Độ chính xác của mô hình là 99.53% Tuy nhiên, mô hình mới chi
13
Trang 17được đánh giá trên bộ dữ liệu tin nhắn sms Trong tương lai, các tác gia sẽ thực hiệnđánh giá trên các loại tin nhắn rác khác như: ứng dụng nhắn tin trong các ứng dụngtrò chuyện, mạng xã hội, tin nhắn đánh giá, Mô hình cũng cần được tối ưu hơn
thông qua việc tôi ưu các tham sô khác nhau của mô hình.
Guo và cộng sự [5] đề xuất một phương pháp phát hiện thư rác hiệu quả bằng cách
sử dụng mô hình BERT được tiền huấn luyện kết hợp với bốn thuật toán học máy
phân loại nổi tiếng là Support Vector Machine, K-Nearest Neighbors, RandomForest, và Logistic Regression Nội dung thư điện tử được đưa vào BERT để tạo rabiểu diễn đữ liệu như là các vector đặc trưng trước khi đưa vào các mô hình học máy
dé phân loại Các tác giả sử dụng hai bộ dit liệu băng tiếng Anh cho việc huấn luyện
là “Enron-Spam” và “spam or not spam” Kết quả thực nghiệm chứng minh thuật
toán Logistic Regression dat được sự phân loại tốt nhất trên cả hai bộ đữ liệu này Bộ
dữ liệu thứ nhất đạt độ chuẩn xác 97.86%, độ sót 97.83% và điểm F1 97.84% Bộ dữliệu thứ hai đạt độ chuan xác 95.95%, độ sót 96% và điểm F1 95.92% Nghiên cứu
có thể được mở rộng cho các hệ thông khác như phát hiện tin nhắn rác trong hệ thôngthông tin di động hay phát hiện tin giả trong các nền tảng mạng xã hội Tuy nhiên,
mô hình này cần được đánh giá thêm trong việc kết hợp nhiều lớp phức tạp bên trong
BERT.
Các công trình nghiên cứu liên quan của các tác giả được tổng hợp trong Bang 2.1
như sau:
Bảng 2.1 Bảng thống kê các nghiên cứu liên quan
# | TÁC GIÁ | MÔ HÌNH | BỘ DỮ LIEU DE XUẤT KÉT QUÁ
Tạo vector đặc
trưng biểu diễn
An “Spam Filter’? và |ngữ cảnh hai | Độ chính xác
Hiệu chỉnh | “Spambase”: 3000 |chiều của từ | 98.67% và
1 | va Yaseen
[I]~2021 BERT thư thông thường và | thông qua BERT | Điểm Fl
2000 thu rac và hiệu chỉnh mô | 98.66%
hình dé phát hiện
thư rác
14
Trang 18và đưa vào mô
hình huấn luyện
Độ chính xác là 98.4%.
724 thư rác Enron: 16094 thư
tham số dựa trên
siêu tham số của
các mô hình sử dụng bộ dữ liệu riêng biệt
PhoBert
hợp
và
Tin nhắn sms tiếng Việt: 2454 tin nhắn
thông thường va
2659 tin nhắn rác
Biểu diễu vector của tin nhắn qua PhoBert và bổ
sung hai đặc
trưng về số
lượng từ và ký tự
rồi chuẩn hóa
trước khi đưa
vào DNN huấn
luyện
Độ chính xác 99.53%
Sử
và dụng Logistic
Trang 19“spam or not|Regresson đê | Độ chuan xác spam”: 2500 thư | phân loại 95.95%, Độ sót
thông thường và 96% và Điểm
499 thư rác F1 95.92%
Từ các công trình nghiên cứu trên, các mô hình học sâu đều đạt hiệu quả cao trongviệc phát hiện thư rác so với các mô hình học máy truyền thống Tuy nhiên, các môhình này chủ yếu được huấn luyện trên các bộ dữ liệu thư rác tiếng Anh hoặc biêndich từ bộ dir liệu thư rác tiếng Anh sang ngôn ngữ khác thông qua giao diện lập trìnhứng dụng GoogleTrans của Google Các tác giả [13] đã thu thập được bộ đữ liệu tiếng
Việt nhưng là bộ dữ liệu tiếng Việt dành cho tin nhắn rác, chưa có bộ dữ liệu về thư
rác tiếng Việt Việc cung cấp dit liệu huấn luyện cho các mô hình hoc máy cũng như
các mô hình học sâu có vai trò quan trọng trong việc đánh giá sự hiệu quả của mô
hình đề xuất Luận văn này đề xuất việc xây đựng bộ dữ liệu về thư rác tiếng Việt vàứng dụng các mô hình học sâu gồm CNN, BiLSTM và PhoBERT dé có được mô hình
phát hiện thư rác tiếng Việt tối ưu dựa trên bộ dữ liệu về thu rác tiếng Việt thu thập
được Điều này sẽ góp phần trong việc phát hiện thư rác tiếng Việt hiệu quả hơn và
ngăn chặn vân nạn thư rác tiêng Việt tràn lan như hiện nay.
Ba mô hình học sâu gồm CNN, BiLSTM và PhoBERT được chon dé thử nghiệm trên
bộ dữ liệu thư rác tiếng Việt xây dựng được vì các mô hình này đã chứng minh được
tính hiệu quả trong bài toán phân loại văn bản mà điền hình trong luận văn này là bài toán phát hiện thư rác tiếng Việt thông qua việc phân loại thư thông thường và thư
rác Với mô hình CNN, mô hình này ban đầu được sử dụng chủ yếu trong xử lý hình
ảnh nhưng hiện nay cũng được ứng dụng trong việc xử lý văn bản và cho độ chính
xác cao BiLSTM là mô hình mở rộng của mô hình LSTM mà khắc phục nhược điểmcủa mô hình RNN trước đó Mô hình BiLSTM này có thể ứng dụng trong xử lý văn
bản do văn bản là một chuỗi có tính tuần tự và có khả năng xử lý dữ liệu văn bản theo
cả hai chiều Mô hình PhoBert là mô hình dựa trên BERT, đã được huấn luyện trênkho đữ liệu tiếng Việt Mô hình này đã chứng minh được tính hiệu quả trong các bài
toán xử lý ngôn ngữ tự nhiên Các tác giả [14] đã thực hiện hiệu chỉnh mô hình
PhoBert trong việc phát hiện tin nhắn rác tiếng Việt và cho độ chính xác cao
16
Trang 20Nội dung của luận văn này trả lời hai câu hỏi nghiên cứu, đó là:
1 Làm thế nào dé phát hiện thư rác tiếng Việt?
2 Mô hình học sâu nào tối ưu trong việc phát hiện thư rác tiếng Việt?
Trả lời câu hỏi thứ nhất là cần xây dựng được bộ đữ liệu về thư rác tiếng Việt và đưavào các mô hình học sâu để huấn luyện mô hình phát hiện thư rác tiếng Việt Dựa
trên kết quả thử nghiệm trên các mô hình học sâu khác nhau, câu hỏi thứ hai được trả
lời dựa trên việc so sánh và đánh giá dé tìm ra mô hình học sâu tối ưu trong việc pháthiện thư rác tiếng Việt
17
Trang 21Chương 3 GIẢI PHAP DE XUẤT
3.1 Nguyên lý mô hình hệ thống đề xuất
Hình 3.1 là mô hình tổng quan hệ thống đề xuất phát hiện thư rác tiếng Việt sử dụng
các mô hình học sâu gồm CNN, BiLSTM và PhoBert Hệ thống đề xuất này bao gồm
hai phần chính là xây dựng bộ đữ liệu thư rác tiếng Việt và sử dụng các mô hình học
sâu dé huấn luyện trên bộ dữ liệu thư rác tiếng Việt xây dựng được Dựa trên kết quả
huấn luyện đầu ra, các mô hình sau đó được so sánh về độ chính xác cũng như thờigian huấn luyện để tìm ra được mô hình học sâu phát hiện thư rác tiếng Việt tối ưu
Đánh giá mô hình
Thu thập, kiểm tra và phân loại
thư tiếng Việt
Trích xuất chủ đề và nội dung
Bô dữ liêu Biễu diễn vector số thông qua
tt rác huấn luyện hoặc tiền huấn luyện
tiếng Việt
Hình 3.1 Mô hình hệ thống đề xuất
Quá trình xây dựng bộ dữ liệu thư rác tiếng Việt gồm các bước: thu thập, kiểm tra và
phân loại dữ liệu thư tiếng Việt; trích xuất chủ đề và nội dung của thư; gán nhãnSPAM và HAM tương ứng cho thư điện tử; thực hiện tiền xử ly dir liệu; lưu dữ liệuthư vào bộ đữ liệu thư rác tiếng Việt
Quá trình sử dụng các mô hình học sâu dé huấn luyện trên bộ dữ liệu thư rác tiếngViệt xây dựng được gồm các bước: biểu diễn vector số của đữ liệu thư đầu vào thôngqua quá trình huấn luyện hoặc tiền huấn luyện; huấn luyện các mô hình học sâu CNN,BiLSTM và PhoBERT để phát hiện thư rác tiếng Việt; đánh giá các mô hình thông
qua độ chính xác và thời gian huân luyện các mô hình.
18
Trang 223.2 Phương pháp thực hiện
3.2.1 Xây dựng bộ dữ liệu thư rác tiếng Việt
Bộ dữ liệu thư rác tiếng Việt được thu thập từ dữ liệu thư cá nhân của tác giả và từ
các thư nhận được thông qua báo cáo từ người dùng Khi người dùng nhận được một
thư rác, người dùng có thể báo cáo các thư này là thư rác thông qua chức năng báocáo thư rác của hệ thống thư điện tử Khi người dùng nhận được một thư mà hệ thốngthư điện tử đánh giá nhằm là thư rác, người dùng có thé báo cáo thư này không phải
là thư rác Các bao cáo thư rác nay bên cạnh được hệ thống thư điện tử sử dụng để
nhận biết thư rác tốt hơn còn được gửi về người quản trị để xây dựng bộ dữ liệu thưrác tiếng Việt
Các thư điện tử sau khi thu thập được lưu trữ dưới dạng tập tin có phần mở rộng là.eml Đây là một loại tập tin chuẩn, có cấu trúc sử dụng để lưu trữ một thư điện tử.Nội dung của tập tin này bao gồm phan tiêu đề và phần nội dung của thư điện tử.Phần tiêu đề chứa thông tin địa chỉ người gửi, địa chỉ người nhận, chủ đề của thư điện
tử và ngày giờ thư điện tử được gửi Phần nội dung chứa thông tin thông điệp của thưđiện tử muốn gửi đi
Các thư điện tử sau khi được trích xuất chủ đề và nội dung sẽ được tiền xử lý và lưu
vào tập tin có phần mở rộng là csv để xây dựng bộ dữ liệu thư rác tiếng Việt Đây làmột loại tập tin định dạng văn bản mà các giá trị ngăn cách nhau bởi dấu phây vàdòng dé ngăn cách các bản ghi Mỗi dòng của tập tin này chứa nội dung của một thưđiện tử đã được tiền xử lý (bao gồm chủ đề và nội dung của thư) cùng với loại thư vànhãn của thư Các giá trị này ngăn cách nhau bởi day phây
19
Trang 23Thư cá nhân Kiểm tra và
& a Tiền xử lý Đánh giá
Hình 3.2 Quá trình xây dựng bộ đữ liệu thư rác tiếng Việt
Hình 3.2 mô tả quá trình xây dựng bộ dữ liệu thư rác tiếng Việt Chi tiết các bước
thực hiện như sau:
- _ Bước 1: Bộ dit liệu thư rác tiếng Việt được thu thập từ hai nguồn chính Nguồn
thứ nhất tác giả thu thập từ chính thư cá nhân của tác giả (dữ liệu đại điện chomột người sử dụng thư điện tử) Nguồn thứ hai tác giả thu thập thông qua tínhnăng báo cáo thư rác từ người dùng của hệ thống thư điện tử (dữ liệu đại diệncho toàn bộ người dùng) Tính năng báo cáo thư rác từ người dùng của hệ thống
thư điện tử hoạt động như sau:
o Khi người dùng nhận được một thư điện tử nằm trong thư mục “Hộp thư
đến” của tài khoản thư điện tử Nếu người dùng nhận thấy đây là thư rác(có thể là thư quảng cáo, thư xin tài trợ, thư lừa đảo hay thư nặc danh),
người dùng có thê chọn thư này và chọn tính năng “Báo cáo thư rác” đểbáo cáo đây là thư rác.
o Khi người dùng nhận được một thư điện tử nằm trong thư mục “Thư rác”
của tài khoản tư điện tử (tức hệ thống thư điện tử đã đánh giá thư này là
thư rác nên gửi vào thư mục “Thư rác” thay vì thư mục “Hộp thư đến”)
Nếu người dùng nhận thấy đây không phải là thư rác, người dùng có thể
chon thư này và chon tính năng “Báo cáo không phải thư rác” dé báo cáo
thư này không phải là thư rác.
20
Trang 24Các thư được người dùng báo cáo là thư rác sẽ được gửi vê tài khoản spam và các thu được báo cáo không phải là thư rác sẽ được gửi về tài khoản ham của
hệ thống thư điện tử
Bước 2: Tác giả thực hiện kiểm tra thư dựa trên báo cáo từ người dùng thôngqua tài khoản thư spam và ham của hệ thống thư điện tử để xác định báo cáo từ
người dùng là đúng Sau đó, tác giả thực hiện phân loại thư theo các lĩnh vực và
theo các loại thư rác phô biến), gan nhãn tương ứng dựa trên các thư thu thập
được Quá trình thực hiện như sau:
o_ Đối với các loại thư được báo cáo không phải là thư rac, tác gia thực hiện
kiểm tra, phân loại theo các lĩnh vực khác nhau và lưu vào thư mục Ham.
Các thư này được phân loại theo các lĩnh vực khác nhau gồm: giáo dục
đào tạo, kinh doanh, tài chính, chứng khoán, công nghệ, du lịch thê thao,
y tế, bat động san, dich vụ công va khác Các thu trong thư mục Ham nay
sẽ được gán nhãn tự động là ham trong quá trình xử lý.
o_ Đối với các loại thư được báo cáo là thư rác, tác giả thực hiện kiểm tra,
phân loại theo các loại thư rác phô biến và lưu vào thư mục Spam Các thưnày được phân loại theo các loại thư rác phổ biến gồm: thư quảng cáo, thư
lừa dao, thư nặc danh và các loại thu xin tài trợ Các thư trong thư mục Spam này sẽ được gán nhãn tự động là spam trong quá trình xử lý.
o_ Mỗi thư điện tử sau khi được kiểm tra, phân loại sẽ được lưu trữ trong tập
tin eml và tên tập tin này có định dạng là “Loại thư Chủ đề.eml” Ví dụ:
tập tin thư điện tử có tên “Ads_Chỉ Từ 195K _ Tận Hưởng Khuyến Mãi
Có Hạn 12.07 - 18.07” với “Ads” là thư đã được phân loại là thư quảng
cáo và “Chỉ Từ 195K _ Tận Hưởng Khuyến Mãi Có Han 12.07 - 18.07”
là chủ đề của thư
©_ Quá trình xử lý sẽ đọc nội dung các thư điện tử từ các tập tin eml trong
các thư mục Ham và Spam, trích xuất chủ đề cùng với nội dung, trích xuất
loại thư điện tử (dựa trên tên tập tin của thư điện tử) và thực hiện gán nhãn
là thư rác (đối với thư lưu trong thư mục Spam) và thư thông thường (đối
với thư lưu trong thư mục Ham).
21
Trang 25- Bước 3: Sau khi trích xuất chủ đề cùng với nội dung của thư điện tử, tác giả
thực hiện tiền xử dữ liệu dé làm sạch dit liệu, loại bỏ các từ, số, dau chấm câu,biểu tượng, đường dẫn liên kết, địa chỉ thư điện tử, mà không mang nhiều ýnghĩa trong quá trình xử lý dé phát hiện thư rác tiếng Việt Phần chữ ký của
người gửi trong nội dung thư cũng được loại bỏ vì không mang ý nghĩa trong
quá trình huấn luyện mô hình phát hiện thư rác tiếng Việt Điều này sẽ giúpgiảm thời gian huấn luyện cho các mô hình sau này
- _ Bước 4: Sau khi thực hiện tiền xử lý, tác giả sẽ lưu đữ liệu các thử điện tử vào
tập tin văn bản có phần mở rộng là csv, mỗi dòng đại diện cho một mẫu thư
điện tử với nhãn, loại thư và nội dung thư Đây chính là bộ dữ liệu về thư rác
tiếng Việt xây dựng được Qua quá trình thu thập, kiểm tra, phân loại va gan
nhán, tác giả đã xây dựng được bộ đữ liệu về thư rác tiếng Việt gồm 4359 thư
điện tử, trong đó 2329 thư được gán nhãn thư thông thường và 2030 thư được
gán nhãn là thư rác Thông tin chỉ tiết về bộ dữ liệu thư rác tiếng Việt được tổng
hợp trong Bảng 3.1.
- Bước 5: Tác giả thực hiện chia bộ dữ liệu thư rác tiếng Việt theo tỉ lệ 80:20 với
80% dữ liệu phục vụ cho việc huấn luyện các mô hình và 20% dữ liệu phục vụ
cho việc đánh giá các mô hình.
Bảng 3.1 Thông tin bộ dữ liệu thư rác tiếng Việt sau khi xử lý
Thông tin Giá trị
Tổng số thư điện tử 4359 Tổng số thư thông thường 2329 Tổng số thư rác 2030 Kích thước ngắn nhất của | thư thông thường 8 Kích thước dai nhat của 1 thu thông thường 1297
Kích thước trung bình của | thư thông thường 224
Kích thước ngắn nhất của 1 thư rác 5 Kích thước dài nhất của 1 thư rác 1350
Kích thước trung bình của | thư rác 243
22
Trang 263.2.2 Ứng dụng các mô hình học sâu
3.2.2.1 Mô hình Word2Vec
Đề các mô hình học máy cũng như các mô hình học sâu có thể hiểu được đữ liệu vănbản mà ở đây là nội dung thư điện tử thì nội dung thư điện tử phải được biểu diễn
dưới dạng vector số Có nhiều cách đề biểu diễn nội dung văn bản như thư điện tử
dưới dạng vector số như BOWs, TF-IDF, Word2Vec, Trong đó, BOWs là phươngpháp đơn giản trong xử lý ngôn ngữ tự nhiên dé chuyên văn bản thành vector số dựatrên sự xuất hiện của từ trong văn bản BOWs đối xử tất cả các từ như nhau và khôngthé hiện được mối quan hệ giữa các từ khác nhau trong văn bản Một phương phápkhác là TF-IDF cũng được sử dung dé chuyền văn bản thành vector số Ưu điểm củaTF-IDF là phân biệt được từ quan trọng và từ hiém trong van bản dựa trên tần suấtxuất hiện của từ trong câu văn bản và trong văn bản nhưng cũng không thê hiện đượcmối quan hệ giữa các từ khác nhau trong văn bản Word2Vec là một mô hình xử lýngôn ngữ tự nhiên được phát triển bởi Google, có khả năng biểu diễn ngữ cảnh của
từ, giúp máy tính hiéu ngôn ngữ tốt hơn so với BOWs và TF-IDF Word2Vec sử dụng
một mạng nơron với một lớp ân dé huấn luyện dự đoán một từ dựa trên các từ ngữcảnh của nó (theo cơ chế CBOWs) hoặc dự đoán các từ ngữ cảnh dựa trên một từđược cho trước (theo cơ chế Skip-gram) Kích thước của lớp ân trong mạng noron
chính là kích thước của vector biểu diễn từ Do đó, Word2Vec được chon dé huấn
luyện trên kho từ gồm các từ trong bộ dữ liệu thư rác tiếng Việt thu thập được và tạo
ra biêu diễn vector số nhiều chiều của các từ tiếng Việt tương ứng
Bên cạnh việc sử dụng mô hình Word2Vec dé biểu diễn vector số cho mô hình họcsâu CNN va BiLSTM, hệ thống đề xuất còn sử dụng mô hình PhoBERT [9], một môhình xử lý ngôn ngữ tự nhiên tiên tiến đã được tiền huấn luyện cho ngôn ngữ tiếngViệt dé biểu diễn vector số theo ngữ cảnh hai chiều của từ theo mô hình BERT dé cókết quả so sánh và đánh giá
3.2.2.2 Mô hình mạng CNN
Mô hình mang CNN ban đầu được sử dụng dé nhận dạng các chữ số viết tay trong
lĩnh vực bưu chính Ngày nay, mô hình mạng CNN được ứng dụng rộng rãi trong các
23
Trang 27bài toán xử lý ảnh như phân loại ảnh, nhận dạng khuôn mặt, phát hiện đối tượng, phân
tích ảnh y khoa, cũng như được ứng dụng trong bài toán phân loại văn bản.
Kiến trúc cơ bản của mang CNN gồm hai phần chính là trích xuất đặc trưng đầu vào
và thực hiện tác vụ chăng hạn như phân loại như Hình 3.3
Feature learning Classification
Hình 3.3 Kiến trúc cơ bản của mang CNN
Nguồn: Kiến trúc cơ bản của mạng CNN theo [2]
Trích xuất đặc trưng:
- _ Lớp tích chập: sử dụng các bộ lọc hay còn được gọi là kernel có kích thước khác
nhau dé trích xuất đặc trưng của dữ liệu đầu vào Phép tích chập được thực hiện
thông qua việc đi chuyền bộ lọc với bước nhảy xác định trên đữ liệu đầu vào đãđược biéu diễn dưới dang tensor Do phép tích chập là một phép biến đổi tuyếntính nên sau lớp tích chập thường sử dụng một hàm kích hoạt ReLU dé làm cho
mạng trở nên phi tuyến tính.
- _ Lớp tông hợp: mục dich dé trích xuất các đặc trưng quan trọng cũng như giảm
số chiều và chỉ phí tính toán Lớp này thường sử dụng phép lấy giá trị lớn nhấthoặc phép lay giá trị trung bình như Hình 3.4
Thực hiện phân loại:
- Lop kết nối đầy đủ: các đặc trưng sau khi được trích xuất và tông hợp sẽ được
biến đồi thành vector đặc trưng và đưa vào lớp kết nói day đủ dé thực hiện tac
vụ phân loại.
24
Trang 28Mô hình CNN có thé ứng dụng trong bài toán phân loại ma dé liệu đầu vào là văn
bản Trong trường hợp này dữ liệu đầu vào là nội dung của thư điện tử Kiến trúc củamang này được Kim [7] đề xuất và thường được gọi là TextCNN hay Kim’s CNN.Hình 3.5 là kiến trúc tông quan của mô hình mạng TextCNN ứng dụng trong pháthiện thư rác tiếng Việt
Hình 3.5 Mô hình mang CNN ứng dung phát hiện thư rac tiếng Việt
Trong kiến trúc này, một đặc trưng được trích xuất từ bộ lọc được thực hiện như sau:
- _ Dữ liệu thư điện tử đầu vào được biéu dién dưới dạng ma trận từ nhúng đã được
tiền huấn luyện sử dụng mô hình Word2Vec, với x; € IR# (x; là từ thứ i trong
văn bản và d là sô chiêu vector biêu diễn của mỗi từ).
25
Trang 29- Bộ lọc W IR°# di chuyên trên dữ liệu đầu vào với h là số từ mà mỗi lần bộ lọc
di chuyển qua dé thực hiện phép tích chập và tạo ra một đặc trưng c¡ Kết quả
sẽ cho € e IR^~°*1 đặc trưng như được biểu diễn bởi công thức (3.1) và (3.2)
- Cac đặc trưng sau đó sẽ được tông hop thông qua phép lấy giá trị lớn nhất dé
trích xuất đặc trưng quan trọng nhất tương ứng với bộ lọc như được biểu diễn
bởi công thức (3.3):
ê = max{c} (3.3)
Mô hình có thé sử dụng nhiều bộ lọc với kích thước khác nhau dé trích xuấtnhiều đặc trưng khác nhau
- Cac đặc trưng sau đó được đưa vào lớp kết nối đầy du dé thực hiện phân loại
thư rác và thư thông thường Dựa trên kết quả phân loại, hệ thống có thể phát
hiện được một thư tiếng Việt có phải là thư rác hay không
3.2.2.3 Mô hình mạng BiLSTM
Mô hình mạng LSTM được sử dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên do kha
năng xử lý dữ liệu theo dạng chuỗi như văn bản Theo đó, mô hình này được ứng
dụng trong các bài toán như phân tích cảm xúc, phân loại văn bản, dịch máy, chú
thích hình ảnh, Mô hình này đã được cải tiến để khắc phục vấn đề phụ thuộc xa
của mạng nơron hồi quy RNN Nó cho phép kết nối thông tin trước đó với hiện tại dé
có thê xử lý thông tin một cách tốt hơn Tương tự như mạng RNN, mạng LSTM cũnggồm một chuỗi các ô nhớ nhưng mỗi ô nhớ bao gồm 04 mạng noron tương tác vớinhau thay vì có duy nhất 01 mạng noron như mạng RNN ban đầu LSTM sử dụngcác công dé loại bỏ hoặc thêm thông tin vào trạng thái ô nhớ thông qua mạng noronvới ham Sigmoid và phép nhân theo điểm Hàm Sigmoid cho phép chuẩn hóa đầu ra
là một số giữa 0 và 1 Giá trị 0 nghĩa là không cho phép thông tin di qua và giá trị 1
là cho phép thông tin đi qua.
26
Trang 30Hình 3.6 là kiến trúc xử lý bên trong của một ô nhớ trong mạng LSTM [8] Đầu tiên,công quên sẽ quyết định thông tin nào sẽ bị loại bỏ khỏi trang thái ô nhớ thông quahàm Sigmoid thứ nhất Tiếp theo, nó sẽ quyết định thông tin mới nào sẽ được lưu trữvào trong trạng thái ô nhớ thông qua hàm Sigmoid thứ hai (gọi là cổng vào) và hàm
Tanh.
&)
Nguồn: Kiến trúc mạng LSTM gồm 4 mạng noron tương tác với nhau theo [8]
Hàm Sigmoid thứ hai quyết định thông tin mới nào sẽ được cập nhật và hàm Tanhtạo một vector biểu dién thông tin mới Hai giá trị này được kết hợp để tạo cập nhậttrong quá trình cập nhật thông tin đến trạng thái ô nhớ Cuối cùng, nó quyết địnhthông tin đầu ra thông qua hàm Sigmoid thứ 3 (gọi là công ra) và hàm Tanh của trạng
thái ô nhớ được tính toán trước đó.
BILSTM là mạng mở rộng của mạng LSTM, cho phép xử lý dữ liệu theo cả hai chiều,chiều xuôi và chiều ngược dé hiểu dữ liệu dạng chuỗi tốt hơn so với xử lý dữ liệutheo một chiều của mạng LSTM Đề xử lý đữ liệu theo cả hai chiều, BiLSTM sử dụnghai lớp mạng LSTM, một lớp mạng LSTM xử lý theo chiều xuôi và một lớp mạngLSTM xử lý theo chiều ngược
Hình 3.7 là mô hình mạng BiLSTM ứng dụng trong bài toán phát hiện thư rác tiếngViệt Đầu vào là nội dung thư đã được biễu diễn bằng vector số thông qua mô hình
Word2Vec đã được huấn luyện trước đó Dữ liệu đầu vào được đưa vào mạng theo
cả hai chiêu, chiêu xuôi va chiêu ngược.
27
Trang 31Hình 3.7 Mô hình mạng BiLSTM ứng dụng phát hiện thư rac tiếng Việt
Ở lớp mạng LSTM xử lý theo chiều xuôi, đầu vào được xử lý tuần tự từ trái qua phải
Đồng thời ở lớp mạng LSTM xử lý theo chiều ngược, đầu vào được xử lý tuần tự từphải qua trái Kết quả sau đó được tổng hợp và đưa vào lớp kết nối đầy đủ dé thực
hiện phân loại ở đầu ra Dựa trên kết quả phân loại, hệ thống có thể phát hiện đượcthư rác tiếng Việt
3.2.2.4 Mô hình mạng PhoBERT
PhoBERT [9] là một mô hình ngôn ngữ lớn dựa trên mô hình BERT của Google,
được tiền huấn luyện cho ngôn ngữ tiếng Việt nhằm phục vụ cho các tác vụ xử lý
ngôn ngữ tự nhiên khác nhau bằng tiếng Việt như suy luận ngôn ngữ, hỏi và trả lời,
phân loại văn bản, Trong đó, tác vụ phân loại văn bản có thể ứng dụng trong bàitoán phát hiện thư rác tiếng Việt
Mô hình BERT [11] có hai mô hình chính là BERT-base và BERT-large Trong đó,
mô hình BERT-base gồm có 12 lớp biểu diễn xếp chồng lên nhau Dữ liệu đầu vàođược đưa vào BERT-base để học cách biểu diễn ngữ cảnh của mỗi từ thông qua cơchế “multi-head attention” Cơ chế này cho phép liên hệ từng từ trong câu với tất cả
các từ trong câu dé học môi quan hệ giữa các từ và ngữ cảnh của các từ Mạng noron
28
Trang 32FeedForward trong mỗi lớp biểu diễn của BERT-base bao gồm 768 nót ân vì vậy kích
thước biêu diễn ngữ cảnh của môi từ ở dau ra là 768.
Mỗi từ trong dữ liệu đầu vào được biéu diễn bang một số duy nhất gọi là token thông
qua BertTokenizer và được đưa vào BERT-base dé học cách biểu diễn ngữ cảnh haichiều của mỗi từ Lớp biéu diễn thứ nhất sẽ tính toán biểu diễn của tat cả các token
va đưa kết quả vào lớp biéu diễn thứ hai Lớp biểu diễn thứ hai tiếp tục tính toán vàđưa kết quả vào lớp biểu diễn kế tiếp Lớp biểu diễn cuối cùng (lớp biểu diễn thứ 12)
sẽ cho ra kết quả biểu diễn cuối cùng của các token (tương ứng với các từ trong dữ
liệu đầu vào) Trong đó token CLS là một token đặc biệt được thêm vào đầu của đữliệu đầu vào Sau tính toán token này sẽ chứa biểu diễn của toàn bộ dữ liệu đầu vào(ký hiệu là (Rcys))
Tương tự mô hình BERT, mô hình PhoBERT cũng có hai phiên bản gồm phiên banPhoBERT-base và PhoBERT-large được tiền huấn luyện trên 20GB dữ liệu tiếng
Việt từ Wikipedia và các văn bản tin tức Sau đó, mô hình này sẽ được hiệu chỉnh
cho các tác vụ xử lý ngôn ngữ tự nhiên khác nhau Do số lượng tham số của mô hìnhPhoBERT rất lớn (PhoBERT-base là 135 triệu tham số và PhoBERT-large là 370triệu tham số) nên mô hình PhoBERT-base được chọn sử dụng dé phan loai va phathién thu rac tiéng Việt
Hình 3.8 là mô hình PhoBERT ứng dụng trong phát hiện thư rác tiếng Việt Thôngtin biểu diễu của dữ liệu đầu vào có được thông qua mô hình PhoBERT-base (Re,s)
sẽ được đưa vào lớp kết nối đầy đủ dé thực hiện phân loại dữ liệu đầu vào (trong
trường hợp nay là nội dung của thư điện tử) dé có được kết quả ở đầu ra, từ đó có thé
ứng dụng trong việc phát hiện thư rác tiếng Việt
29
Trang 33Lớp kết nối đầy da RTokenl RToken2 Rsep
Hình 3.8 Mô hình PhoBERT ứng dung trong phát hiện thư rác tiếng Việt
Kết quả của mô hình PhoBERT sau đó được so sánh với hai mô hình học sâu trước
đó là CNN và BiLSTM dé đánh giá độ chính xác trong việc phát hiện thư rác tiếng
Việt dựa trên bộ dữ liệu thư rác tiếng Việt đã xây dựng được
30
Trang 343.2.2.5 Hàm kích hoạt
Bên cạnh các hàm kích hoạt như hàm Relu và hàm Tanh được sử dụng trong các mô
hình học sâu, hàm kích hoạt Sigmoid được sử dụng chính để chuẩn hóa đầu ra trongcác mô hình về giá trị 0 và 1 tương ứng với các nhãn HAM và SPAM trong việc pháthiện thư rác tiếng Việt Hàm kích hoạt Sigmoid có dạng như công thức (3.4):
1 1+e 7
Theo công thức 3.4, khi z tiến tới -œ, ø(Z) sẽ tiến về 0 và khi z tiến tới +œ, ø(Z) sẽ
dự đoán tốt hơn bằng cách điều chỉnh các tham số để giảm độ lỗi Đối với bài toán
31
Trang 35phân loại nhị phân như bài toán phát hiện thư rác tiếng Việt, hàm độ lỗi sử dụng là
ham binary cross-entropy như công thức (3.5):
N
£(6,x,y) = ~~ Vp log(9) + (1~ y9).log(1—ÿ9)] BS)
i=1
Trong do:
- L£1aham độ lỗi của mô hình
- _ Ø là tham số của mô hình
- N là số tông số mẫu dữ liệu
- y® là giá trị thật của nhãn của mau dit liệu thứ i (nhận giá tri 0 hoặc 1)
- © là xác suất dự đoán nhãn của mẫu dữ liệu thứ i ở đầu ra, 9 sẽ có dạng là
hàm kích hoạt sigmoid như công thức (3.4) dé chuẩn hóa đầu ra về giá trị trong
Trang 36tính sai, âm tính đúng và âm tính sai Bảng 3.3 cho thông tin chỉ tiết về các trườnghợp có thê xảy ra trong quá trình dự đoán.
Bảng 3.3 Các trường hợp dự đoán
Âm tính đúng: mô hình dự đoán một thư
không phải là thư rác và thực tế thư đó
không phải là thư rác.
- M6 hình dự đoán: 0 (HAM)
- _ Thực tế: 0 (HAM)
Duong tính sai: mô hình dự đoán một thu là
thư rác nhưng thư đó thực tế thư đó không
phải là thư rác.
- M6 hình dự đoán: 1 (SPAM)
- Thực tế: 0 (HAM)
Âm tính sai: mô hình dự đoán một thư
không phải là thư rác nhưng thực tế thư đó
Dương tính đúng: mô hình dự đoán một thư
là thư rác và thực tế thư đó là thư rác.
Dựa trên các trường hợp dự đoán trong Bảng 3.3, độ chính xác, độ chuẩn xác, độ sót
và điểm F1 được tính để đo lường như sau:
- Độ chính xác được tính bằng tổng số thư được dự đoán đúng (bao gồm dương tính
đúng và âm tinh đúng) trên tông sé thu (bao gồm dương tinh đúng, dương tính sai,
âm tính đúng và âm tính sai) như công thức (3.6).
Dương tính đúng + Âm tinh din
Độ chính xác =— TÔ (3.6)
Tổng số thư
- D6 chuẩn xác được tinh bằng số thư rác được dự đoán đúng (đương tinh đúng) trên
tổng số thư rác (bao gồm dương tính đúng và dương tính sai) như công thức (3.7)
Dương tính đún
Độ chuẩn xác = g g (3.7)
Duong tính ding + Dương tinh sai
- Độ sót được tính bang số thư rác được dự đoán đúng (đương tính đúng) trên tông
số thư rác thực sự (bao gồm dương tính đúng và âm tính sai) như công thức (3.8)
a Dương tinh ding
Độ sót = ———— _ (3.8)
Dương tinh đúng + Am tinh sai
- Điểm FI được tinh bang trung bình điều hòa giữa độ chuan xác và độ sót theo công
thức (3.9) khi độ chuẩn xác và độ sót có sự chênh lệch
we Độ sót * Độ chuẩn xác
Điểm F1 = 2 * (3.9)
Độ sót + Độ chuẩn xác
33
Trang 37Về thời gian huấn luyện của các mô hình, thông số về thời gian được ghi nhận trongquá trình huấn luyện đề so sánh kết quả.
3.3 Giải thuật thực hiện
3.3.1 Sơ đồ giải thuật xây dựng bộ dữ liệu thư rác tiếng Việt
Sơ đồ giải thuật quá trình thực hiện xử lý và xây dựng bộ dữ liệu thư rác tiếng Việt
được thực hiện như trong Hình 3.10.
Extract msgsub, msgbody using BytesParser
msgtext = msgsub + '.'+ msgbody
Trang 38Đầu vào là các thư điện tử được kiểm tra, phân loại và lưu trữ dưới định dạng tập tin
có phan mở rộng là eml Sau khi thực hiện xử lý, kết quả dau ra là bộ dit liệu thư ráctiếng Việt được lưu trữ dưới định dạng tập tin có phần mở rộng là csv Chi tiết sơ đồgiải thuật quá trình thực hiện xử lý và xây dựng bộ dữ liệu thư rác tiếng Việt được
thực hiện như sau:
Giải thuật: Xây dựng bộ dữ liệu thư rác tiếng Việt
Đầu vào:
- Danh sách chứa tên các tập tin thư điện tủ msg_files
- Danh sách lưu nội dung các thu sau xử lý msg_texts[]
- Danh sách lưu thể loại thư tương ứng msg_types[]
- Danh sách lưu nhãn của các thư tương ứng msg_labels[]
- KHOI TẠO i <- 0
Đầu ra:
- dataset.csv // Bộ dt liệu thu rác tiếng Việt
01:For each item in msg £files
02: If 1 < length(msg files)
03: Trích xuất msgsub, msgbody của item dùng BytesParser
04: msgtext <- msgsub + ` 7 + msgbody
05: msgtext <- Preprocess text (msgtext)
06: type <- Trích xuất thể loại Type từ tên item
Trang 3919: Print(‘Tap tin eml không tổn tai’)
3.3.2 Sơ đồ giải thuật huấn luyện mô hình Word2Vec
Hình 3.11 là sơ đồ giải thuật huấn luyện mô hình Word2Vec được huấn luyện trên
kho từ vựng của bộ dt liệu thư rác tiếng Việt dựa trên bộ công cụ Gensim.