1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Phát hiện thư rác tiếng Việt sử dụng các mô hình học sâu

78 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 78
Dung lượng 91,75 MB

Nội dung

Hiện nay, các mô hình học máy cũng như các mô hình học sâu đã được ứng dụng trong việc phát hiện thu rác dựa trên nội dung cua thu gửi đi nhưng chủ yếu được huấn luyện dựa trên nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

————%›2#*€Œ§————

NGÔ THANH BÌNH

PHAT HIỆN THU RAC TIENG VIET SỬ DUNG

CAC MO HÌNH HOC SAU

LUẬN VĂN THAC SĨ

NGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 8.48.02.01

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS NGUYEN TAN CAM

TP HO CHÍ MINH - NAM 2024

Trang 2

Lời cam đoan

Tôi xin cam đoan luận văn này là do tôi thực hiện duéi sự hướng dẫn của thầy

TS Nguyễn Tan Cam, không có sự sao chép bắt kỳ phần nội dung nảo từ các

luận văn khác Những nội dung trích dẫn sử dụng trong luận văn đều được dẫn nguồn tham khảo đầy đủ.

TP HCM, ngày thang năm

Tác giả luận văn

Ngô Thanh Bình

Trang 3

Lời cảm ơn

Tôi xin chân thành cảm ơn thay TS Nguyễn Tan Cầm đã nhiệt tình hướng dan

và đưa ra các định hướng giúp tôi hoàn thành luận văn này Do kiến thức, kinh

nghiệm còn nhiều hạn chế nên không tránh khỏi những thiếu sót, rất mong nhận được ý kiến góp ý quý báu từ quý thay cô.

Tôi cũng xin gửi lời cảm ơn đến gia đình, bạn bè, đồng nghiệp đã luôn bên

cạnh, tạo điều kiện tốt nhất cho tôi hoàn thành luận văn này.

Trang 4

1.1 _ Giới thiệu về thư điện tử ccccrktrrrrkrirrttrrirrrtrirrrrirreriied 7

IS (ii thu 2 ae 7 1.3 Tác hại của thư rac - -ĂĂc S11 vn kg, 7 1.4 Các giải pháp ngăn chặn thư rac - - 5c 23c 3+ +vEEeeeeeeresereeee 8 1.5 Các đặc trưng của thư TắC - - ch rrn 10

1.6 Những thách thức trong xây dựng bộ dữ liệu thư rác tiếng Việt 10

1.7 _ Phát biểu bài toán và đóng góp của luận văn - 2-2 2+c++cz+sz+sz 11

Chương 2 CAC NGHIÊN CUU LIÊN QUAN 2- 2 2+e+x+szxserxez 12

Chương 3 GIẢI PHÁP DE XUẤT ccc:-+cccveerrrrrrerrrrrrrrerrree 18

3.1 _ Nguyên lý mô hình hệ thống đề xuất - 2 2 +z+++£++zxzrszrxeee 18

3.2 Phương pháp thực hiỆn - - 5< k9 TH TH ng nh ớt 19

3.2.1 Xây dựng bộ dữ liệu thư rác tiếng As or 19

3.2.2 Ứng dung các mô hình học sâu - 2-2 2 2 +2 ++££+E++Ezx++xezreez 23

3.2.2.1 M6 hinh À/i/À/.1 23

3.2.2.2 Mô hình mang CÌNN - cv ng ky 23 3.2.2.3 Mô hình mạng BILSTÌM .- - G S1 vn ng re, 26 3.2.2.4 Mô hình mạng PhoBlEiÏT - - - - - + + k1 9k ve 28 3.2.2.5 Ham kích hoOạt - - cv nnHnHnHnHnHnHnn HH nnưệp 31

3.2.2.6 Hàm độ lỗi 5s như ưn 31

Trang 5

3.2.3 Danh gid m6 0i 32 3.3 Giải thuật thực Win o cceeccecscessessssessesssesssecssecssecssesssesssessuessesssesssecssecasecsses 34

3.3.1 Sơ đồ giải thuật xây dựng bộ dữ liệu thư rác tiếng Việt 34

3.3.2 Sơ đồ giải thuật huấn luyện mô hình Word2Vec -. -: 36

3.3.3 Sơ đồ giải thuật huấn luyện mô hình CNN 2-2 25255: 38

3.3.4 Sơ đồ giải thuật huấn luyện mô hình BiLSTM - 41

3.3.5 Sơ đồ giải thuật hiệu chỉnh mô hình PhoBERT -<- 43

Chương 4 KET QUÁ THUC NGHIỆM 2-2 2 22 ++£++E++E++E++zezreee 45

4.1 Xây dựng bộ dữ liệu thư rác tiếng „ ằằ 45

4.2 Huan luyện các mô hình ¿+ + ++2+++E++Ex++E++Exzx+zrxerxrzreerxees 49

4.2.1 Môi trường huấn luyỆn - +22 ©++E+EE+EE+EE£EEEEEEEEEEEEEkrrerrerree 49

4.2.2 Huấn luyện mô hình: - ¿2 2+++SE++EE+EE£+E++EEeEE++Exerxerxerrxerxee 49

4.2.3 Kết quả huấn luyện + t+SE+SEEEESEEEEEEEESEEEEEEEEEEEEEEEEErrkrrkrree 49

4.3 Kết quả dự đoán .-cc St St E1 1111211211211 111 1111111 xe, 52

Chương 5 KÉT LUẬN VÀ HƯỚNG PHAT TRIÊN 2-5222 s22 54

5.1 KẾtluận Ă 2c 2 S22 HE Hee 54

5.2 _ Hướng phát triỂn -©£©<+EkSEE2EEEEEEEE2E1E71E211211 21x crveeg 55

TÀI LIEU THAM KHẢO - - 2 2 ©5£+S£+EE£EEE£EE£EEEEEEEEEEEEEEEEEECEEEEEEErkrrkrrkee 56

Trang 6

Danh mục các ký hiệu và chữ viet tat

EML Electronic Mail Format

CSV Comma Separated Values

BOWs Bag of Words

TF-IDF Term Frequency - Inverse Document Frequency

CBOWs Continuous Bag of Words

DNN Deep Neural Network

CNN Convolutional Neural Network

RNN Recurrent Neural Network

LSTM Long Short-Term Memory

BiLSTM Bidirectional Long Short-Term Memory

BERT Bidirectional Encoder Representations from Transformers

USDM Universal Spam Detection Model

SMS Short Message Service

LIME Local Interpretable Model-agnostic Explanations

Trang 7

Danh mục các bảng

Bang 1.1 Các đặc trưng của nội dung thư rắC c5 + * + *+Eseeeerreeeeerreree 10

Bang 2.1 Bảng thống kê các nghiên cứu liên quan - 2-2 2+sz+sz+sz2se+s++‡ 14

Bang 3.1 Thông tin bộ dữ liệu thư rác tiếng Việt sau khi xử lý -: 22Bang 3.2 Giá trị hàm độ lỗi 555 S223 233 1211121121211 11.1 xe, 32

Bang 3.3 Các trường hợp dự đoán - - - - 1131 319119 1191 9111 11 1 ng 33 Bảng 4.1 Bang so sánh độ đo của các mô hình - 5 25+ +svseerseeeee 51

Bang 4.2 Bang so sánh thời gian huấn luyện các mô hình -z 52Bang 5.1 Tổng hợp nhận xét kết quả các mô hình oo eeececsesseessessesssesseeseessesseeseesen 54

Trang 8

Danh mục các hình vẽ, đồ thị

Hình 1.1 Mô tả bài toán phát hiện thư rác tiếng Việt -¿- 2 52©5225scc5e2 11 Hình 3.1 Mô hình hệ thống đề xuất 2-2 2 £+S££S++E£+E++E+EE+EzEezrzrerreee 18

Hình 3.2 Quá trình xây dung bộ dữ liệu thư rác tiếng VIỆT ccSS Son 20 Hình 3.3 Kiến trúc cơ bản của mạng CNN -¿- 2-52 2+S++E2E2EzErErrerreee 24

Hình 3.4 Phép tích chập và phép tong hợp trong xử lý ảnh xám - 25

Hình 3.5 Mô hình mạng CNN ứng dụng phát hiện thư rác tiếng VIỆ( - 25

Hình 3.6 Kiến trúc mạng L.STM 2 2£ S©++2EE+EEE2EEESEEESEEESEkezrxrrrrrrrree 27 Hình 3.7 Mô hình mạng BiLSTM ứng dung phát hiện thư rác tiếng Việt 28

Hình 3.8 Mô hình PhoBERT ứng dụng trong phát hiện thư rác tiếng Việt 30

Hình 3.9 Đồ thị biễu diễn Hàm Sigmoid - 2-2 2 2 2+2 £+2EE+E£2E+zEzzEzzrxez 31 Hình 3.10 Sơ đồ giải thuật quá trình xây dựng bộ dữ liệu thư rác tiếng Việt 34

Hình 3.11 Sơ đồ giải thuật huấn luyện mô hình Word2 Vec : 36

Hình 3.12 Sơ đồ giải thuật mô hình CNN phát hiện thư rác tiếng Việt 38

Hình 3.13 Sơ đồ giải thuật mô hình BiLSTM phát hiện thư rác tiếng Việt 41

Hình 3.14 So đồ giải thuật mô hình PhoBERT phát hiện thư rác tiếng Việt 43

Hình 4.1 Nội dung mẫu bộ dữ liệu thư rác tiếng Việt sau xử lý - 45

Hình 4.2 Thống kê phân loại các loại thư thông thường . ¿¿- 5+¿ 46 Hình 4.3 Thống kê phân loại các loại thư rác phô biến -.: ¿ ¿©5z©55+¿ 41 Hình 4.4 Biéu đồ phân bố độ dài của các thư thông thường 2-2-5: 48 Hình 4.5 Biéu đồ phân bố độ dài của các thư rác 2-2 s+z+sz+sz+zzxzzxxee 48 Hình 4.6 Kết quả huấn luyện các mô hình - 2-2 2 + +2 s+++++£++xzxzzxeez 50 Hình 4.7 Biểu đồ so sánh độ đo của các mô hình :¿-©++¿+cc+vrsrrxves 5I Hình 4.8 Biểu đồ so sánh thời gian huấn luyện các mô hình - - 52

Hình 4.9 Diễn giải dự đoán của mô hình phát hiện thư rác tiếng VIỆ( 53

Trang 9

MỞ ĐẦU

TÓM TÁT - Ra đời từ những ngày đầu của mạng máy tính, trải qua nhiều nâng cấp

và cải tiễn, thư điện tử ngày nay vẫn là một phương thức trao đồi thông tin chính thứcđược sử dụng rộng rãi bởi các cá nhân và tô chức trên toàn thế giới Bên cạnh những

lợi ích to lớn mà thư điện tử mang lại, thư điện tử cũng bị lạm dụng và sử dụng như một công cụ phục vụ cho các mục đích khác nhau trên môi trường mạng máy tính như gửi thư lừa đảo, thư nặc danh, thư quảng cáo, thư xin tài trợ Những thư này

người nhận không mong muốn nhận nên được gọi là thư rác hay SPAM Đề phân biệtvới thư rác, thuật ngữ HAM được sử dụng dé chỉ thư ma người nhận mong muốn

nhận hay không phải thư rác Thu rác thường gây cảm giác khó chịu khi người sử

dụng nhận được chúng hoặc thậm chí gây ra những ton hại nhất định cả về vật chất

và tinh thần nếu người sử dụng trở thành mục tiêu của những kẻ lừa đảo Chính vìvậy, nhiều giải pháp đã được phát triển dé phát hiện thư rác hiệu quả hơn Trong đó,

các mô hình học máy cũng như các mô hình học sâu đã được ứng dụng để phát hiện

thư rác và đạt được độ chính xác cao Tuy nhiên, các mô hình này phần lớn đều đượchuấn luyện trên bộ dữ liệu tiếng Anh nên chỉ có khả năng phát hiện được thư rác tiếngAnh, chưa có bộ dữ liệu thư rác tiếng Việt dé huấn luyện mô hình phát hiện thư ráctiếng Việt Luận văn này trình bày việc xây dựng bộ dữ liệu thư rác tiếng Việt và ứngdụng các mô hình học sâu gồm CNN, BiLSTM và PhoBert để huấn luyện mô hìnhphát hiện thư rác tiếng Việt Kết quả so sánh cho thấy, các mô hình học sâu này đềucho kết quả phát hiện thư rác tiếng Việt với độ chính xác cao Kết quả huấn luyện chothấy độ chính xác của các mô hình lần lượt là CNN 88.42%, BiLSTM 83.03% và

PhoBert 86.47%.

Tw khóa - Phát hiện thu rac, CNN, BiLSTM, PhoBert.

Trang 10

Chương 1 GIỚI THIỆU

1.1 Giới thiệu về thư điện tử

Thư điện tử thường được gửi từ người gửi đến một hoặc nhiều người nhận thông quamôi trường mạng máy tính Mỗi thư điện tử gồm có mục chủ đề và mục nội dung đểngười gửi có thể soạn thảo nội dung mong muốn trước khi gửi đi Đây được xem nhưmột phương thức trao đôi thông tin chính thức giữa các cá nhân và tổ chức trên toànthé giới Người sử dụng chỉ cần có một máy tính hay thiết bị điện thoại thông minh

có kết nỗi mang máy tính là có thé sử dụng tài khoản thư điện tử dé gửi thư một cách

nhanh chóng và tiện lợi Bên cạnh những lợi ích to lớn mà thư điện tử mang lại, thư

điện tử cũng bị lạm dụng như một công cụ để gửi thư cho người dùng phục vụ chocác mục đích thương mại cũng như các mục đích xấu như tấn công lừa đảo Đây lànhững thư mà người dùng không mong muốn nhận nên từ đó đã hình thành khái niệmthư rac hay SPAM Dé phân biệt với thư rác, thuật ngữ HAM được sử dụng dé chỉ

thư mà người nhận mong muôn nhận hay không phải thư rác.

1.2 Khai niệm thư rác

Thư rác hay SPAM là những thư được gửi hàng loạt đến một danh sách những người

nhận phục vụ cho các mục đích khác nhau Thư rác có thê được gửi từ các công ty tô

chức dé quảng cáo cho các sản phâm dich vụ mới cũng như gửi các thông tin ưu đãi,khuyến mãi Các loại thư rác khác là các loại thư lừa đảo, nặc danh và thường đượcgửi số lượng lớn đến người dùng thông qua mạng các máy tính bị nhiễm phần mềmđộc hại và đã bị kẻ tấn công chiếm quyền điều khiển Các loại thư này người dùng

không mong muôn nhận nên được gọi là thư rác.

1.3 Tac hại của thư rác

Thư rác đã trở thành một van nạn đối với tất cả cá nhân và tô chức trên toàn thé gidi.Theo số liệu thống kê gần đây được đăng tai bởi DataProt [3], một trang web đánhgiá độc lập chuyên cung cấp thông tin chính xác về các sản phẩm an ninh mạng khácnhau thi gần 56,5% tổng số thư điện tử năm 2022 là thư rác mà chủ yếu là thư quảngcáo Thư quảng cáo thường làm mắt thời gian và công sức của người nhận khi nhận

được những thư nảy vì người nhận phải lướt qua thư nhận được trước khi xác định

đây là thư rác Theo số liệu thống kê và phân tích về thư rác có được bởi Kaspersky

7

Trang 11

Security Network [6], một nhân viên có thé mat khoảng hai ngày làm việc mỗi năm

để đọc qua các loại thư rác mà họ nhận được Điều này gây lãng phí tài nguyên củacác tô chức khi phải chi trả chi phí nhân viên mà không phục vụ cho công việc Thêmvào đó, thư quảng cáo có thê làm người nhận mắt tập trung trong công việc bởi nhữngnội dung trong thư quảng cáo thường hấp dẫn, gây cảm giác ấn tượng dé kích thích

người dùng mua các sản phâm, dịch vụ.

Bên cạnh thư quảng cáo, các loại thu xin tai trợ, thư nặc danh, thư lừa đảo cũng là

các loại thư rác phổ biến mặc dù tần suất gửi có ít hơn so với thư quảng cáo Thư xintài trợ thường gây cảm giác phiền toái và làm mất thời gian của người nhận khi nhậnđược những thư rác này vì không phải cá nhân hay tổ chức nào cũng có đủ năng lựctài chính để tài trợ Đối với thư nặc danh, những thư này thường được gửi để xúc

phạm nhân phẩm của một người nào đó hoặc gửi thư đòi nợ cho những người liên

quan với người vay nợ khi người cho vay không liên hệ được với người vay nợ dédoi nợ Thư nặc danh thường có nội dung khiếm nhã để xúc phạm người khác hoặcthậm chí dùng lời lẽ de dọa người nhận Điều này cũng gây sự phiên toái, thậm chígây cảm giác lo sợ cho những người nhận được thư rác này Nghiêm trọng nhất là khi

người nhận nhận được các loại thư lừa đảo Những thư lừa đảo thường dẫn dụ người

nhận nhắn vào các đường dẫn liên kết trong thư dé lừa đánh cắp thông tin tài khoảnthư điện tử, thông tin tài khoản ngân hàng, cài đặt phần mềm độc hại vào máy tínhhoặc điện thoại của người nhận, nhằm chiếm đoạt thông tin, dữ liệu, tài sản của

người nhận Nếu người nhận chăng may nhấn vào đường dẫn liên kết trong thư thì

thông tin, dữ liệu, tài sản của người nhận có thê bị đánh cắp Điều này gây ra những

tốn hại nhất định về vật chất cũng như tinh thần cho người nhận Đặc biệt, nó có thể

phá hoại uy tín và hình ảnh của một tô chức khi thông tin, dữ liệu của tổ chức đó bị

lộ lọt ra ngoài Từ đó nó có thể ảnh hưởng nghiêm trọng đến hoạt động kinh doanh

của t6 chức đó

1.4 Các giải pháp ngăn chặn thư rác

Nhiều giải pháp khác nhau đã được áp dụng để bảo vệ người dùng khỏi thư rác Các

giải pháp ngăn chặn thư rác truyền thống thường được sử dụng là tạo các bộ lọc đánh

giá dựa trên điểm dé phân loại thư rác, xác thực người gửi, kiểm tra danh sách thư

Trang 12

điện tử đen, danh sách máy chủ gửi thư điện tử đen, nhận đánh giá thư từ người sử

dụng, đảo tạo về nhận thức an ninh thông tin trong việc sử dụng thư điện tử cho ngườidùng, Bắt đầu từ năm 2024, dé bảo vệ người dùng khỏi thu rác và chống lai các

mỗi de doa phức tạp từ thư điện tử, Gmail [4] đã yêu cầu các tổ chức khi gửi thư vào

Gmail phải sử dụng các giải pháp xác thực nguồn gốc thư được gửi đi, trong nội dungthư điện tử có tùy chọn cho phép người nhận từ chối nhận thư nếu muốn và đặc biệt

phải duy trì tỷ lệ thư rác do người dùng báo cáo ở ngưỡng dưới 0.1% và tránh vượt

quá 0.3% Những yêu cầu này sẽ ảnh hưởng đến tất cả cá nhân và tô chức gửi thư đếnngười nhận có tài khoản thư điện tử trên Google trên toàn thế giới Nếu không đápứng các yêu cầu này, thư gửi từ các cá nhân và tô chức sẽ bị Google từ chối nhậnhoặc bị đánh dấu là thư rác Yahoo và AOL cũng có chính sách tương tự như Googlenhằm bảo vệ người dùng của họ khỏi thư rác và chống lại các mối de dọa phức tạp từ

thư điện tử Google, Yahoo và AOL là ba nhà cung cấp dịch vụ thư điện tử chiếm

phan lớn thị phần thư điện tử của người sử dụng trên toàn thé giới

Mặc dù nhiều giải pháp kỹ thuật đã được áp dụng đề ngăn chặn thư rác nhưng điềuquan trọng nhất đề xác định một thư điện tử là thư rác hay không vẫn nằm ở nội dungcủa thư gửi đến người dùng Hiện nay, các mô hình học máy cũng như các mô hình

học sâu đã được ứng dụng trong việc phát hiện thu rác dựa trên nội dung cua thu gửi

đi nhưng chủ yếu được huấn luyện dựa trên nội dung thư tiếng Anh, thiếu dữ liệuhuấn luyện dựa trên thư tiếng Việt Luận văn này sẽ trình bày việc xây dựng bộ dữliệu thư rác tiếng Việt và ứng dụng các mô hình học sâu gồm CNN, BiLSTM va

PhoBert dé huấn luyện mô hình phát hiện thu rác tiếng Việt Bộ dữ liệu thư rác tiếng

Việt sau khi được thu thập sẽ được tiền xử lý nhằm loại bỏ các từ, số, dấu câu, biểutượng, đường dẫn liên kết, địa chỉ thư điện tử, mà không có nhiều ý nghĩa trong xử

lý dé phát hiện thu rác tiếng Việt Dữ liệu sau đó sẽ được biểu diễn bằng vector số

trước khi đưa vào các mô hình học sâu phục vụ cho quá trình huấn luyện Có nhiều

phương pháp đề biéu diễn nội dung văn bản như thư điện tử sang biểu diễn vector số

Mô hình Word2Vec được chọn để biểu diễn vector số cho các mô hình học sâu CNN

và BiLSTM để phát hiện thư rác tiếng Việt bởi vì Word2Vec có khả năng biểu diễn

được ngữ cảnh của từ Bên cạnh đó, PhoBERT [9], một mô hình ngôn ngữ lớn dựa

trên BERT đã được tiền huấn luyện cho ngôn ngữ tiếng Việt được sử dụng để so sánh

9

Trang 13

và đánh giá kết quả thử nghiệm với các mô hình CNN và BiLSTM Kết quả so sánhcho thấy, các mô hình học sâu này đều cho kết quả phát hiện thư rác tiếng Việt với

độ chính xác cao trên bộ dữ liệu thư rác tiếng Việt thu thập được

1.5 Các đặc trưng của thư rác

Các thư rác thường có những đặc trưng khác nhau đề giúp phân biệt thư rác và thư

thông thường Hai đặc trưng chính là dựa vào thông tin địa chỉ gửi không xác định

hoặc giả mạo và dựa trên nội dung truyền tải của thư Trong phạm vi của luận văn

này, các đặc trưng về nội dung truyền tải của thư (gồm chủ dé và nội dung) được tríchxuất dé đưa vào các mô hình học sâu huấn luyện Các đặc trưng [15] về nội dungtruyền tải của thư dé phân biệt thư rác được tổng hợp trong Bang 1.1 như sau:

Bảng 1.1 Các đặc trưng của nội dung thư rác

Thư có nội dung mang tinh khan cấp

3 | dé dẫn dắt người dùng thực hiện một

hành động nào đó.

Mật khâu của bạn sẽ hết hạn ngày hôm nay Hãy bam vào đường dan sau để thay đổi ngay NHÂN VÀO ĐÂY

Thư có nội dung yêu cầu người nhận

4 | cung cấp thông tin cá nhân hoặc tài

khoản.

Hộp thư bạn đã vượt quá giới hạn lưu trữ.

Hãy cung cấp: Tên, Tên người dùng, Mật khẩu, Thư điện tử, Điện thoại Nếu bạn không

cung câp, hộp thư của bạn sẽ bị vô hiệu hóa.

Thư chứa nội dung dẫn dắt người

5 | dùng nhấn vào đường dẫn liên kết

hoặc tập tin đính kèm độc hại.

Kích hoạt tài khoản của bạn ngay bây giờ đề tránh bị vô hiệu hóa BAM VÀO DAY DE KÍCH HOẠT TÀI KHOẢN CỦA BẠN

1.6 Những thách thức trong xây dựng bộ dữ liệu thư rác tiếng Việt

Với sự phát triên của công nghệ, thư rác xuât hiện ngày càng nhiêu và nội dung cũng trở nên đa dạng hơn, nhăm tới nhiêu đôi tượng người dùng khác nhau Do đó, việc

phát hiện thư rác tiếng Việt cũng gặp những thách thức nhất định Thứ nhất là nội

10

Trang 14

dung thư rác ngày càng đa dạng, đặc biệt là các loại thư quảng cáo chiếm thị phầnlớn nên cũng gặp khó khăn trong việc phân loại phát hiện thư rác Đề giải quyết tháchthức này thì cần hơn nữa sự báo cáo thư rác từ người dùng dé có dữ liệu huấn luyện

cho các mô hình phát hiện thư rác Thách thức thứ hai là nội dung thư rác cũng thay

đối liên tục nhằm vượt qua các hệ thống phát hiện thư rác dé gửi tới người dùng Vìvậy, các hệ thống phát hiện thư rác cũng cần phải cập nhật liên tục dé phát hiện được

thư rác một cách hiệu quả hơn.

1.7 Phát biểu bài toán và đóng góp của luận văn

Bài toán phát hiện thư rác tiếng Việt là bài toán phân loại nhị phân gồm hai lớp là lớpthư rác (ký hiệu là 1) và lớp thư thông thường (ký hiệu là lớp 0) như Hình 1.1 Đầuvào của bài toán là nội dung của thư điện tử tiếng Việt (bao gồm chủ đề và nội dungcủa thư điện tử) Hệ thống xử lý sẽ thực hiện rút trích đặc trưng từ đầu vào và đưa

vào các mô hình học sâu dé thực hiện phân loại Hệ thống sau xử lý sẽ cho kết quả

đầu ra là thư thông thường hay thư rác thông qua xác suất dự đoán Nếu xác suất dựđoán một thư là lớn hơn hoặc bằng 0.5 thì đây là thư rác và ngược lại, nếu xác suất

dự đoán một thư là nhỏ hơn 0.5 thì đây là thư thông thường Từ đó, hệ thống có thểphát hiện được thư rác tiếng Việt

aa = CAPNHATHOPTHUCS /Ð Oo x Thu thong

File Message Help thuong

@ Agostinho Francisco Langa Junior <Agostint

Không gian tin nhắn của ban đã day và cần được cập nhật ngay bây giờ bằng cách nhấp vào liên kết cập nhật nay:.

https://cp0.brizy.site/ <->

Lưu ý: Nếu ban không thé nhấp vào liên kết, bạn nên sao chép TN

va dán nó vào trình duyệt mới dé tăng dung lượng hộp thư cho

bản cập nhật x

Đầu vào Hệ thống xử lý Đầu ra

Hình 1.1 Mô tả bài toán phát hiện thư rác tiếng Việt

Đóng góp của luận văn này là đã xây dựng được bộ dữ liệu về thư rác tiếng Việt và

có thể ứng dụng trong các hệ thống phát hiện thư rác tiếng Việt, góp phần ngăn chặn

vân nạn thư rác.

11

Trang 15

Chương 2 CÁC NGHIÊN CỨU LIÊN QUAN

Nhiều cơng trình nghiên cứu liên quan đã ứng dụng các mơ hình học máy cũng nhưcác mơ hình học sâu dé phát hiện thư rác Các nghiên cứu này chủ yếu thực hiện trên

ngơn ngữ tiếng Anh bởi sự thơng dụng của ngơn ngữ tiếng Anh và các bộ dữ liệu về

thư rác tiếng Anh đã được xây dựng trước đĩ Trong đĩ, AbdulNabi va Yaseen [1]

đề xuất việc hiệu chỉnh mơ hình BERT đã được tiền huấn luyện dé phat hién thu rac.Các tác gia sử dung hai bộ dữ liệu mã nguồn mở bằng tiếng Anh gồm “Spam Filter”

từ Kaggle và “Spambase” từ kho lưu trữ học may UCI Cả hai bộ dữ liệu đều cĩ sốlượng mẫu thư thơng thường và thư rác khơng cân bằng nên tác giả đã chọn ngẫu

nhiên từ hai bộ dữ liệu dé tạo ra bộ dit liệu mới gồm 2000 mẫu thư rác và 3000 mau

thư thơng thường phục vụ cho việc huấn luyện mơ hình và sử dụng các mẫu cịn lạicủa bộ dữ liệu “Spambase” xem như là các dữ liệu chưa được biết để kiểm tra mơhình Mơ hình đề xuất được so sánh với mơ hình học sâu BiLSTM và hai mơ hìnhhọc máy khác là K-Nearest Neighbors và Nạve Bayes Kết quả các mơ hình học sâu

cho độ chính xác cao hơn các mơ hình học máy truyền thống và mơ hình dựa trên

BERT cho độ chính xác cao hơn BiLSTM bởi khả năng biểu diễn theo ngữ cảnh hai

chiều của BERT Do sự giới han của tài nguyên tính tốn nên chiều dai của nội dungthư điện tử đưa vào mơ hình là 300 và độ chính xác của mơ hình đề xuất đạt 98.67%

và điểm F1 đạt 98.66% Kết quả cĩ thé được cải thiện hơn trong tương lai khi chiều

đài của nội dung thư điện tử đưa vào mơ hình khơng bị giới hạn.

Siddique và cộng sự [12] đề xuất mơ hình phát hiện thư rác tiếng Urdu, một loại ngơnngữ ở các nước Nam Á, đặc biệt là Pakistan Phương pháp đề xuất sử dụng hai mơ

hình học máy (Nạve Bayes và Support Vector Machine) và hai mơ hình học sâu

(LSTM va CNN) Do khơng cĩ bộ dir liệu huấn luyện bằng tiếng Urdu nên các tácgiả đã thu thập các bộ đữ liệu thư rác tiếng Anh từ Kaggle cũng như kho lưu trữ họcmáy UCI và chuyền sang tiếng Urdu băng cách sử dụng giao diện lập trình ứng dụngGoogleTrans của Google Kết quả tạo được bộ dữ liệu gồm 5000 thư điện tử phânloại như là thư rác và thư thơng thường trong tiếng Urdu Dữ liệu sau đĩ được tiền

xử lý và trích xuất đặc trưng để đưa vào các mơ hình học máy và các mơ hình học

sâu dé huấn luyện Kết quả cho thấy mơ hình học sâu LSTM đạt độ chính xác cao

12

Trang 16

nhất ở mức 98.4% trong việc phát hiện thư rác tiếng Urdu nhưng thời gian huấn luyệncũng lâu hơn Do không có bộ đữ liệu thư rác băng tiếng Urdu nên việc biên dịch từtiếng Anh sang tiếng Urdu có những giới hạn nhất định trong việc biéu diễn ngữ cảnhcủa ngôn ngữ Trong tương lai, các tác giả đề xuất cần phải xây dựng bộ đữ liệu thưrác bằng tiếng Urdu để có được kết quả chính xác hơn.

Tida và Hsu [13] đề xuất mô hình USDM dựa trên mô hình BERT được tiền huấnluyện dé phân loại thư rac Các kết quả nghiên cứu trước đây thường cho kết quả khácnhau trên các bộ dữ liệu khác nhau Một mô hình có thể đạt được độ chính xác caotrên một bộ dữ liệu nhất định nhưng độ chính xác lại không cao trên một bộ dữ liệukhác Do đó, các tác giả đã đề xuất kết hợp các bộ dữ liệu lại trong việc huấn luyện

mô hình Bộ di liệu sử dụng trong mô hình này gồm bốn bộ dữ liệu thư rác bằngtiếng Anh gồm “Enron”, “Spamassassin”, “Lingspam”, và “Spamtext” được kết hợplại với nhau Mô hình sử dụng bộ dữ liệu kết hop này được tinh chỉnh các siêu tham

số dựa trên siêu tham số của các mô hình sử dụng bộ dir liệu riêng biệt và đạt đượckết quả tốt hơn so với những mô hình được huấn luyện trên các bộ dữ liệu riêng lẻ

Độ chính xác của mô hình đạt 97% và điểm F1 là 97% Mô hình này cũng có théđược mở rộng cho các ứng dụng khác nhau như hệ thống phát hiện tin giả trong cácnên tang mạng xã hội Mô hình cũng cần được đánh giá thêm khi kết hợp thêm nhiều

bộ đữ liệu khác nhau đề chứng minh mức độ hiệu quả của nó

Dé góp phan chống tin nhắn rác tiếng Việt, các tác giả [14] đề xuất mô hình là sự kếthợp giữa việc sử dụng mô hình học sâu DNN và PhoBERT được tiền huấn luyện déphat hién tin nhắn rác tiếng Việt Bộ dữ liệu sử dụng trong mô hình là các tin nhắntiếng Việt được thu thập từ các người dùng cá nhân trên các nền tảng hệ điều hành vàthiết bị khác nhau Bộ đữ liệu này gồm 5113 tin nhắn, trong đó 52% là tin nhắn rác

và 48% là tin nhắn thông thường Bên cạnh biéu diễu vector của tin nhắn thông quaPhoBert, tác giả bé sung thêm hai đặc trưng về số lượng từ và số lượng ký tự của tinnhắn rồi thực hiện chuẩn chuẩn hóa và đưa vào mô hình huấn luyện Đề đánh giá hiệu

quả của mô hình, các tác giả đã thử nghiệm bộ dữ liệu này với các mô hình học máy (Support Vector Machine, Naive Bayers và K-Nearest Neighbors) và một mô hìnhhọc sâu là CNN Kết quả cho thấy mô hình đề xuất đạt độ chính xác cao so với các

mô hình khác Độ chính xác của mô hình là 99.53% Tuy nhiên, mô hình mới chi

13

Trang 17

được đánh giá trên bộ dữ liệu tin nhắn sms Trong tương lai, các tác gia sẽ thực hiệnđánh giá trên các loại tin nhắn rác khác như: ứng dụng nhắn tin trong các ứng dụngtrò chuyện, mạng xã hội, tin nhắn đánh giá, Mô hình cũng cần được tối ưu hơn

thông qua việc tôi ưu các tham sô khác nhau của mô hình.

Guo và cộng sự [5] đề xuất một phương pháp phát hiện thư rác hiệu quả bằng cách

sử dụng mô hình BERT được tiền huấn luyện kết hợp với bốn thuật toán học máy

phân loại nổi tiếng là Support Vector Machine, K-Nearest Neighbors, RandomForest, và Logistic Regression Nội dung thư điện tử được đưa vào BERT để tạo rabiểu diễn đữ liệu như là các vector đặc trưng trước khi đưa vào các mô hình học máy

dé phân loại Các tác giả sử dụng hai bộ dit liệu băng tiếng Anh cho việc huấn luyện

là “Enron-Spam” và “spam or not spam” Kết quả thực nghiệm chứng minh thuật

toán Logistic Regression dat được sự phân loại tốt nhất trên cả hai bộ đữ liệu này Bộ

dữ liệu thứ nhất đạt độ chuẩn xác 97.86%, độ sót 97.83% và điểm F1 97.84% Bộ dữliệu thứ hai đạt độ chuan xác 95.95%, độ sót 96% và điểm F1 95.92% Nghiên cứu

có thể được mở rộng cho các hệ thông khác như phát hiện tin nhắn rác trong hệ thôngthông tin di động hay phát hiện tin giả trong các nền tảng mạng xã hội Tuy nhiên,

mô hình này cần được đánh giá thêm trong việc kết hợp nhiều lớp phức tạp bên trong

BERT.

Các công trình nghiên cứu liên quan của các tác giả được tổng hợp trong Bang 2.1

như sau:

Bảng 2.1 Bảng thống kê các nghiên cứu liên quan

# | TÁC GIÁ | MÔ HÌNH | BỘ DỮ LIEU DE XUẤT KÉT QUÁ

Tạo vector đặc

trưng biểu diễn

An “Spam Filter’? và |ngữ cảnh hai | Độ chính xác

Hiệu chỉnh | “Spambase”: 3000 |chiều của từ | 98.67% và

1 | va Yaseen

[I]~2021 BERT thư thông thường và | thông qua BERT | Điểm Fl

2000 thu rac và hiệu chỉnh mô | 98.66%

hình dé phát hiện

thư rác

14

Trang 18

và đưa vào mô

hình huấn luyện

Độ chính xác là 98.4%.

724 thư rác Enron: 16094 thư

tham số dựa trên

siêu tham số của

các mô hình sử dụng bộ dữ liệu riêng biệt

PhoBert

hợp

Tin nhắn sms tiếng Việt: 2454 tin nhắn

thông thường va

2659 tin nhắn rác

Biểu diễu vector của tin nhắn qua PhoBert và bổ

sung hai đặc

trưng về số

lượng từ và ký tự

rồi chuẩn hóa

trước khi đưa

vào DNN huấn

luyện

Độ chính xác 99.53%

Sử

và dụng Logistic

Trang 19

“spam or not|Regresson đê | Độ chuan xác spam”: 2500 thư | phân loại 95.95%, Độ sót

thông thường và 96% và Điểm

499 thư rác F1 95.92%

Từ các công trình nghiên cứu trên, các mô hình học sâu đều đạt hiệu quả cao trongviệc phát hiện thư rác so với các mô hình học máy truyền thống Tuy nhiên, các môhình này chủ yếu được huấn luyện trên các bộ dữ liệu thư rác tiếng Anh hoặc biêndich từ bộ dir liệu thư rác tiếng Anh sang ngôn ngữ khác thông qua giao diện lập trìnhứng dụng GoogleTrans của Google Các tác giả [13] đã thu thập được bộ đữ liệu tiếng

Việt nhưng là bộ dữ liệu tiếng Việt dành cho tin nhắn rác, chưa có bộ dữ liệu về thư

rác tiếng Việt Việc cung cấp dit liệu huấn luyện cho các mô hình hoc máy cũng như

các mô hình học sâu có vai trò quan trọng trong việc đánh giá sự hiệu quả của mô

hình đề xuất Luận văn này đề xuất việc xây đựng bộ dữ liệu về thư rác tiếng Việt vàứng dụng các mô hình học sâu gồm CNN, BiLSTM và PhoBERT dé có được mô hình

phát hiện thư rác tiếng Việt tối ưu dựa trên bộ dữ liệu về thu rác tiếng Việt thu thập

được Điều này sẽ góp phần trong việc phát hiện thư rác tiếng Việt hiệu quả hơn và

ngăn chặn vân nạn thư rác tiêng Việt tràn lan như hiện nay.

Ba mô hình học sâu gồm CNN, BiLSTM và PhoBERT được chon dé thử nghiệm trên

bộ dữ liệu thư rác tiếng Việt xây dựng được vì các mô hình này đã chứng minh được

tính hiệu quả trong bài toán phân loại văn bản mà điền hình trong luận văn này là bài toán phát hiện thư rác tiếng Việt thông qua việc phân loại thư thông thường và thư

rác Với mô hình CNN, mô hình này ban đầu được sử dụng chủ yếu trong xử lý hình

ảnh nhưng hiện nay cũng được ứng dụng trong việc xử lý văn bản và cho độ chính

xác cao BiLSTM là mô hình mở rộng của mô hình LSTM mà khắc phục nhược điểmcủa mô hình RNN trước đó Mô hình BiLSTM này có thể ứng dụng trong xử lý văn

bản do văn bản là một chuỗi có tính tuần tự và có khả năng xử lý dữ liệu văn bản theo

cả hai chiều Mô hình PhoBert là mô hình dựa trên BERT, đã được huấn luyện trênkho đữ liệu tiếng Việt Mô hình này đã chứng minh được tính hiệu quả trong các bài

toán xử lý ngôn ngữ tự nhiên Các tác giả [14] đã thực hiện hiệu chỉnh mô hình

PhoBert trong việc phát hiện tin nhắn rác tiếng Việt và cho độ chính xác cao

16

Trang 20

Nội dung của luận văn này trả lời hai câu hỏi nghiên cứu, đó là:

1 Làm thế nào dé phát hiện thư rác tiếng Việt?

2 Mô hình học sâu nào tối ưu trong việc phát hiện thư rác tiếng Việt?

Trả lời câu hỏi thứ nhất là cần xây dựng được bộ đữ liệu về thư rác tiếng Việt và đưavào các mô hình học sâu để huấn luyện mô hình phát hiện thư rác tiếng Việt Dựa

trên kết quả thử nghiệm trên các mô hình học sâu khác nhau, câu hỏi thứ hai được trả

lời dựa trên việc so sánh và đánh giá dé tìm ra mô hình học sâu tối ưu trong việc pháthiện thư rác tiếng Việt

17

Trang 21

Chương 3 GIẢI PHAP DE XUẤT

3.1 Nguyên lý mô hình hệ thống đề xuất

Hình 3.1 là mô hình tổng quan hệ thống đề xuất phát hiện thư rác tiếng Việt sử dụng

các mô hình học sâu gồm CNN, BiLSTM và PhoBert Hệ thống đề xuất này bao gồm

hai phần chính là xây dựng bộ đữ liệu thư rác tiếng Việt và sử dụng các mô hình học

sâu dé huấn luyện trên bộ dữ liệu thư rác tiếng Việt xây dựng được Dựa trên kết quả

huấn luyện đầu ra, các mô hình sau đó được so sánh về độ chính xác cũng như thờigian huấn luyện để tìm ra được mô hình học sâu phát hiện thư rác tiếng Việt tối ưu

Đánh giá mô hình

Thu thập, kiểm tra và phân loại

thư tiếng Việt

Trích xuất chủ đề và nội dung

Bô dữ liêu Biễu diễn vector số thông qua

tt rác huấn luyện hoặc tiền huấn luyện

tiếng Việt

Hình 3.1 Mô hình hệ thống đề xuất

Quá trình xây dựng bộ dữ liệu thư rác tiếng Việt gồm các bước: thu thập, kiểm tra và

phân loại dữ liệu thư tiếng Việt; trích xuất chủ đề và nội dung của thư; gán nhãnSPAM và HAM tương ứng cho thư điện tử; thực hiện tiền xử ly dir liệu; lưu dữ liệuthư vào bộ đữ liệu thư rác tiếng Việt

Quá trình sử dụng các mô hình học sâu dé huấn luyện trên bộ dữ liệu thư rác tiếngViệt xây dựng được gồm các bước: biểu diễn vector số của đữ liệu thư đầu vào thôngqua quá trình huấn luyện hoặc tiền huấn luyện; huấn luyện các mô hình học sâu CNN,BiLSTM và PhoBERT để phát hiện thư rác tiếng Việt; đánh giá các mô hình thông

qua độ chính xác và thời gian huân luyện các mô hình.

18

Trang 22

3.2 Phương pháp thực hiện

3.2.1 Xây dựng bộ dữ liệu thư rác tiếng Việt

Bộ dữ liệu thư rác tiếng Việt được thu thập từ dữ liệu thư cá nhân của tác giả và từ

các thư nhận được thông qua báo cáo từ người dùng Khi người dùng nhận được một

thư rác, người dùng có thể báo cáo các thư này là thư rác thông qua chức năng báocáo thư rác của hệ thống thư điện tử Khi người dùng nhận được một thư mà hệ thốngthư điện tử đánh giá nhằm là thư rác, người dùng có thé báo cáo thư này không phải

là thư rác Các bao cáo thư rác nay bên cạnh được hệ thống thư điện tử sử dụng để

nhận biết thư rác tốt hơn còn được gửi về người quản trị để xây dựng bộ dữ liệu thưrác tiếng Việt

Các thư điện tử sau khi thu thập được lưu trữ dưới dạng tập tin có phần mở rộng là.eml Đây là một loại tập tin chuẩn, có cấu trúc sử dụng để lưu trữ một thư điện tử.Nội dung của tập tin này bao gồm phan tiêu đề và phần nội dung của thư điện tử.Phần tiêu đề chứa thông tin địa chỉ người gửi, địa chỉ người nhận, chủ đề của thư điện

tử và ngày giờ thư điện tử được gửi Phần nội dung chứa thông tin thông điệp của thưđiện tử muốn gửi đi

Các thư điện tử sau khi được trích xuất chủ đề và nội dung sẽ được tiền xử lý và lưu

vào tập tin có phần mở rộng là csv để xây dựng bộ dữ liệu thư rác tiếng Việt Đây làmột loại tập tin định dạng văn bản mà các giá trị ngăn cách nhau bởi dấu phây vàdòng dé ngăn cách các bản ghi Mỗi dòng của tập tin này chứa nội dung của một thưđiện tử đã được tiền xử lý (bao gồm chủ đề và nội dung của thư) cùng với loại thư vànhãn của thư Các giá trị này ngăn cách nhau bởi day phây

19

Trang 23

Thư cá nhân Kiểm tra và

& a Tiền xử lý Đánh giá

Hình 3.2 Quá trình xây dựng bộ đữ liệu thư rác tiếng Việt

Hình 3.2 mô tả quá trình xây dựng bộ dữ liệu thư rác tiếng Việt Chi tiết các bước

thực hiện như sau:

- _ Bước 1: Bộ dit liệu thư rác tiếng Việt được thu thập từ hai nguồn chính Nguồn

thứ nhất tác giả thu thập từ chính thư cá nhân của tác giả (dữ liệu đại điện chomột người sử dụng thư điện tử) Nguồn thứ hai tác giả thu thập thông qua tínhnăng báo cáo thư rác từ người dùng của hệ thống thư điện tử (dữ liệu đại diệncho toàn bộ người dùng) Tính năng báo cáo thư rác từ người dùng của hệ thống

thư điện tử hoạt động như sau:

o Khi người dùng nhận được một thư điện tử nằm trong thư mục “Hộp thư

đến” của tài khoản thư điện tử Nếu người dùng nhận thấy đây là thư rác(có thể là thư quảng cáo, thư xin tài trợ, thư lừa đảo hay thư nặc danh),

người dùng có thê chọn thư này và chọn tính năng “Báo cáo thư rác” đểbáo cáo đây là thư rác.

o Khi người dùng nhận được một thư điện tử nằm trong thư mục “Thư rác”

của tài khoản tư điện tử (tức hệ thống thư điện tử đã đánh giá thư này là

thư rác nên gửi vào thư mục “Thư rác” thay vì thư mục “Hộp thư đến”)

Nếu người dùng nhận thấy đây không phải là thư rác, người dùng có thể

chon thư này và chon tính năng “Báo cáo không phải thư rác” dé báo cáo

thư này không phải là thư rác.

20

Trang 24

Các thư được người dùng báo cáo là thư rác sẽ được gửi vê tài khoản spam và các thu được báo cáo không phải là thư rác sẽ được gửi về tài khoản ham của

hệ thống thư điện tử

Bước 2: Tác giả thực hiện kiểm tra thư dựa trên báo cáo từ người dùng thôngqua tài khoản thư spam và ham của hệ thống thư điện tử để xác định báo cáo từ

người dùng là đúng Sau đó, tác giả thực hiện phân loại thư theo các lĩnh vực và

theo các loại thư rác phô biến), gan nhãn tương ứng dựa trên các thư thu thập

được Quá trình thực hiện như sau:

o_ Đối với các loại thư được báo cáo không phải là thư rac, tác gia thực hiện

kiểm tra, phân loại theo các lĩnh vực khác nhau và lưu vào thư mục Ham.

Các thư này được phân loại theo các lĩnh vực khác nhau gồm: giáo dục

đào tạo, kinh doanh, tài chính, chứng khoán, công nghệ, du lịch thê thao,

y tế, bat động san, dich vụ công va khác Các thu trong thư mục Ham nay

sẽ được gán nhãn tự động là ham trong quá trình xử lý.

o_ Đối với các loại thư được báo cáo là thư rác, tác giả thực hiện kiểm tra,

phân loại theo các loại thư rác phô biến và lưu vào thư mục Spam Các thưnày được phân loại theo các loại thư rác phổ biến gồm: thư quảng cáo, thư

lừa dao, thư nặc danh và các loại thu xin tài trợ Các thư trong thư mục Spam này sẽ được gán nhãn tự động là spam trong quá trình xử lý.

o_ Mỗi thư điện tử sau khi được kiểm tra, phân loại sẽ được lưu trữ trong tập

tin eml và tên tập tin này có định dạng là “Loại thư Chủ đề.eml” Ví dụ:

tập tin thư điện tử có tên “Ads_Chỉ Từ 195K _ Tận Hưởng Khuyến Mãi

Có Hạn 12.07 - 18.07” với “Ads” là thư đã được phân loại là thư quảng

cáo và “Chỉ Từ 195K _ Tận Hưởng Khuyến Mãi Có Han 12.07 - 18.07”

là chủ đề của thư

©_ Quá trình xử lý sẽ đọc nội dung các thư điện tử từ các tập tin eml trong

các thư mục Ham và Spam, trích xuất chủ đề cùng với nội dung, trích xuất

loại thư điện tử (dựa trên tên tập tin của thư điện tử) và thực hiện gán nhãn

là thư rác (đối với thư lưu trong thư mục Spam) và thư thông thường (đối

với thư lưu trong thư mục Ham).

21

Trang 25

- Bước 3: Sau khi trích xuất chủ đề cùng với nội dung của thư điện tử, tác giả

thực hiện tiền xử dữ liệu dé làm sạch dit liệu, loại bỏ các từ, số, dau chấm câu,biểu tượng, đường dẫn liên kết, địa chỉ thư điện tử, mà không mang nhiều ýnghĩa trong quá trình xử lý dé phát hiện thư rác tiếng Việt Phần chữ ký của

người gửi trong nội dung thư cũng được loại bỏ vì không mang ý nghĩa trong

quá trình huấn luyện mô hình phát hiện thư rác tiếng Việt Điều này sẽ giúpgiảm thời gian huấn luyện cho các mô hình sau này

- _ Bước 4: Sau khi thực hiện tiền xử lý, tác giả sẽ lưu đữ liệu các thử điện tử vào

tập tin văn bản có phần mở rộng là csv, mỗi dòng đại diện cho một mẫu thư

điện tử với nhãn, loại thư và nội dung thư Đây chính là bộ dữ liệu về thư rác

tiếng Việt xây dựng được Qua quá trình thu thập, kiểm tra, phân loại va gan

nhán, tác giả đã xây dựng được bộ đữ liệu về thư rác tiếng Việt gồm 4359 thư

điện tử, trong đó 2329 thư được gán nhãn thư thông thường và 2030 thư được

gán nhãn là thư rác Thông tin chỉ tiết về bộ dữ liệu thư rác tiếng Việt được tổng

hợp trong Bảng 3.1.

- Bước 5: Tác giả thực hiện chia bộ dữ liệu thư rác tiếng Việt theo tỉ lệ 80:20 với

80% dữ liệu phục vụ cho việc huấn luyện các mô hình và 20% dữ liệu phục vụ

cho việc đánh giá các mô hình.

Bảng 3.1 Thông tin bộ dữ liệu thư rác tiếng Việt sau khi xử lý

Thông tin Giá trị

Tổng số thư điện tử 4359 Tổng số thư thông thường 2329 Tổng số thư rác 2030 Kích thước ngắn nhất của | thư thông thường 8 Kích thước dai nhat của 1 thu thông thường 1297

Kích thước trung bình của | thư thông thường 224

Kích thước ngắn nhất của 1 thư rác 5 Kích thước dài nhất của 1 thư rác 1350

Kích thước trung bình của | thư rác 243

22

Trang 26

3.2.2 Ứng dụng các mô hình học sâu

3.2.2.1 Mô hình Word2Vec

Đề các mô hình học máy cũng như các mô hình học sâu có thể hiểu được đữ liệu vănbản mà ở đây là nội dung thư điện tử thì nội dung thư điện tử phải được biểu diễn

dưới dạng vector số Có nhiều cách đề biểu diễn nội dung văn bản như thư điện tử

dưới dạng vector số như BOWs, TF-IDF, Word2Vec, Trong đó, BOWs là phươngpháp đơn giản trong xử lý ngôn ngữ tự nhiên dé chuyên văn bản thành vector số dựatrên sự xuất hiện của từ trong văn bản BOWs đối xử tất cả các từ như nhau và khôngthé hiện được mối quan hệ giữa các từ khác nhau trong văn bản Một phương phápkhác là TF-IDF cũng được sử dung dé chuyền văn bản thành vector số Ưu điểm củaTF-IDF là phân biệt được từ quan trọng và từ hiém trong van bản dựa trên tần suấtxuất hiện của từ trong câu văn bản và trong văn bản nhưng cũng không thê hiện đượcmối quan hệ giữa các từ khác nhau trong văn bản Word2Vec là một mô hình xử lýngôn ngữ tự nhiên được phát triển bởi Google, có khả năng biểu diễn ngữ cảnh của

từ, giúp máy tính hiéu ngôn ngữ tốt hơn so với BOWs và TF-IDF Word2Vec sử dụng

một mạng nơron với một lớp ân dé huấn luyện dự đoán một từ dựa trên các từ ngữcảnh của nó (theo cơ chế CBOWs) hoặc dự đoán các từ ngữ cảnh dựa trên một từđược cho trước (theo cơ chế Skip-gram) Kích thước của lớp ân trong mạng noron

chính là kích thước của vector biểu diễn từ Do đó, Word2Vec được chon dé huấn

luyện trên kho từ gồm các từ trong bộ dữ liệu thư rác tiếng Việt thu thập được và tạo

ra biêu diễn vector số nhiều chiều của các từ tiếng Việt tương ứng

Bên cạnh việc sử dụng mô hình Word2Vec dé biểu diễn vector số cho mô hình họcsâu CNN va BiLSTM, hệ thống đề xuất còn sử dụng mô hình PhoBERT [9], một môhình xử lý ngôn ngữ tự nhiên tiên tiến đã được tiền huấn luyện cho ngôn ngữ tiếngViệt dé biểu diễn vector số theo ngữ cảnh hai chiều của từ theo mô hình BERT dé cókết quả so sánh và đánh giá

3.2.2.2 Mô hình mạng CNN

Mô hình mang CNN ban đầu được sử dụng dé nhận dạng các chữ số viết tay trong

lĩnh vực bưu chính Ngày nay, mô hình mạng CNN được ứng dụng rộng rãi trong các

23

Trang 27

bài toán xử lý ảnh như phân loại ảnh, nhận dạng khuôn mặt, phát hiện đối tượng, phân

tích ảnh y khoa, cũng như được ứng dụng trong bài toán phân loại văn bản.

Kiến trúc cơ bản của mang CNN gồm hai phần chính là trích xuất đặc trưng đầu vào

và thực hiện tác vụ chăng hạn như phân loại như Hình 3.3

Feature learning Classification

Hình 3.3 Kiến trúc cơ bản của mang CNN

Nguồn: Kiến trúc cơ bản của mạng CNN theo [2]

Trích xuất đặc trưng:

- _ Lớp tích chập: sử dụng các bộ lọc hay còn được gọi là kernel có kích thước khác

nhau dé trích xuất đặc trưng của dữ liệu đầu vào Phép tích chập được thực hiện

thông qua việc đi chuyền bộ lọc với bước nhảy xác định trên đữ liệu đầu vào đãđược biéu diễn dưới dang tensor Do phép tích chập là một phép biến đổi tuyếntính nên sau lớp tích chập thường sử dụng một hàm kích hoạt ReLU dé làm cho

mạng trở nên phi tuyến tính.

- _ Lớp tông hợp: mục dich dé trích xuất các đặc trưng quan trọng cũng như giảm

số chiều và chỉ phí tính toán Lớp này thường sử dụng phép lấy giá trị lớn nhấthoặc phép lay giá trị trung bình như Hình 3.4

Thực hiện phân loại:

- Lop kết nối đầy đủ: các đặc trưng sau khi được trích xuất và tông hợp sẽ được

biến đồi thành vector đặc trưng và đưa vào lớp kết nói day đủ dé thực hiện tac

vụ phân loại.

24

Trang 28

Mô hình CNN có thé ứng dụng trong bài toán phân loại ma dé liệu đầu vào là văn

bản Trong trường hợp này dữ liệu đầu vào là nội dung của thư điện tử Kiến trúc củamang này được Kim [7] đề xuất và thường được gọi là TextCNN hay Kim’s CNN.Hình 3.5 là kiến trúc tông quan của mô hình mạng TextCNN ứng dụng trong pháthiện thư rác tiếng Việt

Hình 3.5 Mô hình mang CNN ứng dung phát hiện thư rac tiếng Việt

Trong kiến trúc này, một đặc trưng được trích xuất từ bộ lọc được thực hiện như sau:

- _ Dữ liệu thư điện tử đầu vào được biéu dién dưới dạng ma trận từ nhúng đã được

tiền huấn luyện sử dụng mô hình Word2Vec, với x; € IR# (x; là từ thứ i trong

văn bản và d là sô chiêu vector biêu diễn của mỗi từ).

25

Trang 29

- Bộ lọc W IR°# di chuyên trên dữ liệu đầu vào với h là số từ mà mỗi lần bộ lọc

di chuyển qua dé thực hiện phép tích chập và tạo ra một đặc trưng c¡ Kết quả

sẽ cho € e IR^~°*1 đặc trưng như được biểu diễn bởi công thức (3.1) và (3.2)

- Cac đặc trưng sau đó sẽ được tông hop thông qua phép lấy giá trị lớn nhất dé

trích xuất đặc trưng quan trọng nhất tương ứng với bộ lọc như được biểu diễn

bởi công thức (3.3):

ê = max{c} (3.3)

Mô hình có thé sử dụng nhiều bộ lọc với kích thước khác nhau dé trích xuấtnhiều đặc trưng khác nhau

- Cac đặc trưng sau đó được đưa vào lớp kết nối đầy du dé thực hiện phân loại

thư rác và thư thông thường Dựa trên kết quả phân loại, hệ thống có thể phát

hiện được một thư tiếng Việt có phải là thư rác hay không

3.2.2.3 Mô hình mạng BiLSTM

Mô hình mạng LSTM được sử dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên do kha

năng xử lý dữ liệu theo dạng chuỗi như văn bản Theo đó, mô hình này được ứng

dụng trong các bài toán như phân tích cảm xúc, phân loại văn bản, dịch máy, chú

thích hình ảnh, Mô hình này đã được cải tiến để khắc phục vấn đề phụ thuộc xa

của mạng nơron hồi quy RNN Nó cho phép kết nối thông tin trước đó với hiện tại dé

có thê xử lý thông tin một cách tốt hơn Tương tự như mạng RNN, mạng LSTM cũnggồm một chuỗi các ô nhớ nhưng mỗi ô nhớ bao gồm 04 mạng noron tương tác vớinhau thay vì có duy nhất 01 mạng noron như mạng RNN ban đầu LSTM sử dụngcác công dé loại bỏ hoặc thêm thông tin vào trạng thái ô nhớ thông qua mạng noronvới ham Sigmoid và phép nhân theo điểm Hàm Sigmoid cho phép chuẩn hóa đầu ra

là một số giữa 0 và 1 Giá trị 0 nghĩa là không cho phép thông tin di qua và giá trị 1

là cho phép thông tin đi qua.

26

Trang 30

Hình 3.6 là kiến trúc xử lý bên trong của một ô nhớ trong mạng LSTM [8] Đầu tiên,công quên sẽ quyết định thông tin nào sẽ bị loại bỏ khỏi trang thái ô nhớ thông quahàm Sigmoid thứ nhất Tiếp theo, nó sẽ quyết định thông tin mới nào sẽ được lưu trữvào trong trạng thái ô nhớ thông qua hàm Sigmoid thứ hai (gọi là cổng vào) và hàm

Tanh.

&)

Nguồn: Kiến trúc mạng LSTM gồm 4 mạng noron tương tác với nhau theo [8]

Hàm Sigmoid thứ hai quyết định thông tin mới nào sẽ được cập nhật và hàm Tanhtạo một vector biểu dién thông tin mới Hai giá trị này được kết hợp để tạo cập nhậttrong quá trình cập nhật thông tin đến trạng thái ô nhớ Cuối cùng, nó quyết địnhthông tin đầu ra thông qua hàm Sigmoid thứ 3 (gọi là công ra) và hàm Tanh của trạng

thái ô nhớ được tính toán trước đó.

BILSTM là mạng mở rộng của mạng LSTM, cho phép xử lý dữ liệu theo cả hai chiều,chiều xuôi và chiều ngược dé hiểu dữ liệu dạng chuỗi tốt hơn so với xử lý dữ liệutheo một chiều của mạng LSTM Đề xử lý đữ liệu theo cả hai chiều, BiLSTM sử dụnghai lớp mạng LSTM, một lớp mạng LSTM xử lý theo chiều xuôi và một lớp mạngLSTM xử lý theo chiều ngược

Hình 3.7 là mô hình mạng BiLSTM ứng dụng trong bài toán phát hiện thư rác tiếngViệt Đầu vào là nội dung thư đã được biễu diễn bằng vector số thông qua mô hình

Word2Vec đã được huấn luyện trước đó Dữ liệu đầu vào được đưa vào mạng theo

cả hai chiêu, chiêu xuôi va chiêu ngược.

27

Trang 31

Hình 3.7 Mô hình mạng BiLSTM ứng dụng phát hiện thư rac tiếng Việt

Ở lớp mạng LSTM xử lý theo chiều xuôi, đầu vào được xử lý tuần tự từ trái qua phải

Đồng thời ở lớp mạng LSTM xử lý theo chiều ngược, đầu vào được xử lý tuần tự từphải qua trái Kết quả sau đó được tổng hợp và đưa vào lớp kết nối đầy đủ dé thực

hiện phân loại ở đầu ra Dựa trên kết quả phân loại, hệ thống có thể phát hiện đượcthư rác tiếng Việt

3.2.2.4 Mô hình mạng PhoBERT

PhoBERT [9] là một mô hình ngôn ngữ lớn dựa trên mô hình BERT của Google,

được tiền huấn luyện cho ngôn ngữ tiếng Việt nhằm phục vụ cho các tác vụ xử lý

ngôn ngữ tự nhiên khác nhau bằng tiếng Việt như suy luận ngôn ngữ, hỏi và trả lời,

phân loại văn bản, Trong đó, tác vụ phân loại văn bản có thể ứng dụng trong bàitoán phát hiện thư rác tiếng Việt

Mô hình BERT [11] có hai mô hình chính là BERT-base và BERT-large Trong đó,

mô hình BERT-base gồm có 12 lớp biểu diễn xếp chồng lên nhau Dữ liệu đầu vàođược đưa vào BERT-base để học cách biểu diễn ngữ cảnh của mỗi từ thông qua cơchế “multi-head attention” Cơ chế này cho phép liên hệ từng từ trong câu với tất cả

các từ trong câu dé học môi quan hệ giữa các từ và ngữ cảnh của các từ Mạng noron

28

Trang 32

FeedForward trong mỗi lớp biểu diễn của BERT-base bao gồm 768 nót ân vì vậy kích

thước biêu diễn ngữ cảnh của môi từ ở dau ra là 768.

Mỗi từ trong dữ liệu đầu vào được biéu diễn bang một số duy nhất gọi là token thông

qua BertTokenizer và được đưa vào BERT-base dé học cách biểu diễn ngữ cảnh haichiều của mỗi từ Lớp biéu diễn thứ nhất sẽ tính toán biểu diễn của tat cả các token

va đưa kết quả vào lớp biéu diễn thứ hai Lớp biểu diễn thứ hai tiếp tục tính toán vàđưa kết quả vào lớp biểu diễn kế tiếp Lớp biểu diễn cuối cùng (lớp biểu diễn thứ 12)

sẽ cho ra kết quả biểu diễn cuối cùng của các token (tương ứng với các từ trong dữ

liệu đầu vào) Trong đó token CLS là một token đặc biệt được thêm vào đầu của đữliệu đầu vào Sau tính toán token này sẽ chứa biểu diễn của toàn bộ dữ liệu đầu vào(ký hiệu là (Rcys))

Tương tự mô hình BERT, mô hình PhoBERT cũng có hai phiên bản gồm phiên banPhoBERT-base và PhoBERT-large được tiền huấn luyện trên 20GB dữ liệu tiếng

Việt từ Wikipedia và các văn bản tin tức Sau đó, mô hình này sẽ được hiệu chỉnh

cho các tác vụ xử lý ngôn ngữ tự nhiên khác nhau Do số lượng tham số của mô hìnhPhoBERT rất lớn (PhoBERT-base là 135 triệu tham số và PhoBERT-large là 370triệu tham số) nên mô hình PhoBERT-base được chọn sử dụng dé phan loai va phathién thu rac tiéng Việt

Hình 3.8 là mô hình PhoBERT ứng dụng trong phát hiện thư rác tiếng Việt Thôngtin biểu diễu của dữ liệu đầu vào có được thông qua mô hình PhoBERT-base (Re,s)

sẽ được đưa vào lớp kết nối đầy đủ dé thực hiện phân loại dữ liệu đầu vào (trong

trường hợp nay là nội dung của thư điện tử) dé có được kết quả ở đầu ra, từ đó có thé

ứng dụng trong việc phát hiện thư rác tiếng Việt

29

Trang 33

Lớp kết nối đầy da RTokenl RToken2 Rsep

Hình 3.8 Mô hình PhoBERT ứng dung trong phát hiện thư rác tiếng Việt

Kết quả của mô hình PhoBERT sau đó được so sánh với hai mô hình học sâu trước

đó là CNN và BiLSTM dé đánh giá độ chính xác trong việc phát hiện thư rác tiếng

Việt dựa trên bộ dữ liệu thư rác tiếng Việt đã xây dựng được

30

Trang 34

3.2.2.5 Hàm kích hoạt

Bên cạnh các hàm kích hoạt như hàm Relu và hàm Tanh được sử dụng trong các mô

hình học sâu, hàm kích hoạt Sigmoid được sử dụng chính để chuẩn hóa đầu ra trongcác mô hình về giá trị 0 và 1 tương ứng với các nhãn HAM và SPAM trong việc pháthiện thư rác tiếng Việt Hàm kích hoạt Sigmoid có dạng như công thức (3.4):

1 1+e 7

Theo công thức 3.4, khi z tiến tới -œ, ø(Z) sẽ tiến về 0 và khi z tiến tới +œ, ø(Z) sẽ

dự đoán tốt hơn bằng cách điều chỉnh các tham số để giảm độ lỗi Đối với bài toán

31

Trang 35

phân loại nhị phân như bài toán phát hiện thư rác tiếng Việt, hàm độ lỗi sử dụng là

ham binary cross-entropy như công thức (3.5):

N

£(6,x,y) = ~~ Vp log(9) + (1~ y9).log(1—ÿ9)] BS)

i=1

Trong do:

- L£1aham độ lỗi của mô hình

- _ Ø là tham số của mô hình

- N là số tông số mẫu dữ liệu

- y® là giá trị thật của nhãn của mau dit liệu thứ i (nhận giá tri 0 hoặc 1)

- © là xác suất dự đoán nhãn của mẫu dữ liệu thứ i ở đầu ra, 9 sẽ có dạng là

hàm kích hoạt sigmoid như công thức (3.4) dé chuẩn hóa đầu ra về giá trị trong

Trang 36

tính sai, âm tính đúng và âm tính sai Bảng 3.3 cho thông tin chỉ tiết về các trườnghợp có thê xảy ra trong quá trình dự đoán.

Bảng 3.3 Các trường hợp dự đoán

Âm tính đúng: mô hình dự đoán một thư

không phải là thư rác và thực tế thư đó

không phải là thư rác.

- M6 hình dự đoán: 0 (HAM)

- _ Thực tế: 0 (HAM)

Duong tính sai: mô hình dự đoán một thu là

thư rác nhưng thư đó thực tế thư đó không

phải là thư rác.

- M6 hình dự đoán: 1 (SPAM)

- Thực tế: 0 (HAM)

Âm tính sai: mô hình dự đoán một thư

không phải là thư rác nhưng thực tế thư đó

Dương tính đúng: mô hình dự đoán một thư

là thư rác và thực tế thư đó là thư rác.

Dựa trên các trường hợp dự đoán trong Bảng 3.3, độ chính xác, độ chuẩn xác, độ sót

và điểm F1 được tính để đo lường như sau:

- Độ chính xác được tính bằng tổng số thư được dự đoán đúng (bao gồm dương tính

đúng và âm tinh đúng) trên tông sé thu (bao gồm dương tinh đúng, dương tính sai,

âm tính đúng và âm tính sai) như công thức (3.6).

Dương tính đúng + Âm tinh din

Độ chính xác =— TÔ (3.6)

Tổng số thư

- D6 chuẩn xác được tinh bằng số thư rác được dự đoán đúng (đương tinh đúng) trên

tổng số thư rác (bao gồm dương tính đúng và dương tính sai) như công thức (3.7)

Dương tính đún

Độ chuẩn xác = g g (3.7)

Duong tính ding + Dương tinh sai

- Độ sót được tính bang số thư rác được dự đoán đúng (đương tính đúng) trên tông

số thư rác thực sự (bao gồm dương tính đúng và âm tính sai) như công thức (3.8)

a Dương tinh ding

Độ sót = ———— _ (3.8)

Dương tinh đúng + Am tinh sai

- Điểm FI được tinh bang trung bình điều hòa giữa độ chuan xác và độ sót theo công

thức (3.9) khi độ chuẩn xác và độ sót có sự chênh lệch

we Độ sót * Độ chuẩn xác

Điểm F1 = 2 * (3.9)

Độ sót + Độ chuẩn xác

33

Trang 37

Về thời gian huấn luyện của các mô hình, thông số về thời gian được ghi nhận trongquá trình huấn luyện đề so sánh kết quả.

3.3 Giải thuật thực hiện

3.3.1 Sơ đồ giải thuật xây dựng bộ dữ liệu thư rác tiếng Việt

Sơ đồ giải thuật quá trình thực hiện xử lý và xây dựng bộ dữ liệu thư rác tiếng Việt

được thực hiện như trong Hình 3.10.

Extract msgsub, msgbody using BytesParser

msgtext = msgsub + '.'+ msgbody

Trang 38

Đầu vào là các thư điện tử được kiểm tra, phân loại và lưu trữ dưới định dạng tập tin

có phan mở rộng là eml Sau khi thực hiện xử lý, kết quả dau ra là bộ dit liệu thư ráctiếng Việt được lưu trữ dưới định dạng tập tin có phần mở rộng là csv Chi tiết sơ đồgiải thuật quá trình thực hiện xử lý và xây dựng bộ dữ liệu thư rác tiếng Việt được

thực hiện như sau:

Giải thuật: Xây dựng bộ dữ liệu thư rác tiếng Việt

Đầu vào:

- Danh sách chứa tên các tập tin thư điện tủ msg_files

- Danh sách lưu nội dung các thu sau xử lý msg_texts[]

- Danh sách lưu thể loại thư tương ứng msg_types[]

- Danh sách lưu nhãn của các thư tương ứng msg_labels[]

- KHOI TẠO i <- 0

Đầu ra:

- dataset.csv // Bộ dt liệu thu rác tiếng Việt

01:For each item in msg £files

02: If 1 < length(msg files)

03: Trích xuất msgsub, msgbody của item dùng BytesParser

04: msgtext <- msgsub + ` 7 + msgbody

05: msgtext <- Preprocess text (msgtext)

06: type <- Trích xuất thể loại Type từ tên item

Trang 39

19: Print(‘Tap tin eml không tổn tai’)

3.3.2 Sơ đồ giải thuật huấn luyện mô hình Word2Vec

Hình 3.11 là sơ đồ giải thuật huấn luyện mô hình Word2Vec được huấn luyện trên

kho từ vựng của bộ dt liệu thư rác tiếng Việt dựa trên bộ công cụ Gensim.

Ngày đăng: 08/12/2024, 15:16

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN