Khóa luận tốt nghiệp Công nghệ thông tin: Phát hiện thư rác tiếng Việt sử dụng các mô hình học sâu

Hiện nay, các mô hình học máy cũng như các mô hình học sâu đã được ứng dụng trong việc phát hiện thu rác dựa trên nội dung cua thu gửi đi nhưng chủ yếu được huấn luyện dựa trên nội dung

GIỚI THIỆU 2-©2£©2£+SE+EE£2EE+EEEEEEEEEEEEEEEEEkrrkerrkrree 7

Các giải pháp ngăn chặn thư rac - - 5c 23c 3+ +vEEeeeeeeresereeee 8

Để bảo vệ người dùng khỏi thư rác, nhiều giải pháp đã được áp dụng, bao gồm việc tạo bộ lọc đánh giá, xác thực người gửi và kiểm tra danh sách đen Bắt đầu từ năm 2024, Gmail yêu cầu các tổ chức gửi thư phải sử dụng giải pháp xác thực nguồn gốc và cho phép người nhận từ chối nhận thư Đặc biệt, tỷ lệ thư rác do người dùng báo cáo phải duy trì dưới 0.1% và không vượt quá 0.3% Nếu không đáp ứng các yêu cầu này, thư sẽ bị từ chối hoặc bị đánh dấu là thư rác Yahoo và AOL cũng có chính sách tương tự nhằm bảo vệ người dùng khỏi thư rác và các mối đe dọa phức tạp Google, Yahoo và AOL là ba nhà cung cấp dịch vụ thư điện tử lớn nhất trên toàn cầu.

Mặc dù nhiều giải pháp kỹ thuật đã được áp dụng để ngăn chặn thư rác, nội dung của thư gửi đến người dùng vẫn là yếu tố quan trọng nhất để xác định thư rác Hiện nay, các mô hình học máy và học sâu đã được sử dụng để phát hiện thư rác dựa trên nội dung, nhưng chủ yếu được huấn luyện trên dữ liệu tiếng Anh, thiếu thông tin cho tiếng Việt Luận văn này trình bày việc xây dựng bộ dữ liệu thư rác tiếng Việt và ứng dụng các mô hình học sâu như CNN, BiLSTM và PhoBert để huấn luyện mô hình phát hiện thư rác Bộ dữ liệu sẽ được tiền xử lý để loại bỏ các yếu tố không cần thiết như từ, số, dấu câu và địa chỉ email, sau đó được chuyển đổi thành vector số trước khi đưa vào các mô hình học sâu Nhiều phương pháp biểu diễn nội dung văn bản sang vector số sẽ được áp dụng trong quá trình này.

Mô hình Word2Vec được sử dụng để tạo vector số cho các mô hình học sâu CNN và BiLSTM nhằm phát hiện thư rác tiếng Việt, nhờ vào khả năng biểu diễn ngữ cảnh từ hiệu quả Đồng thời, PhoBERT, một mô hình ngôn ngữ lớn dựa trên BERT và đã được tiền huấn luyện cho tiếng Việt, cũng được áp dụng để so sánh hiệu quả.

Các mô hình CNN và BiLSTM đã được thử nghiệm và đánh giá với kết quả cho thấy khả năng phát hiện thư rác tiếng Việt với độ chính xác cao So sánh giữa các mô hình học sâu này cho thấy chúng đều hoạt động hiệu quả trên bộ dữ liệu thư rác tiếng Việt được thu thập.

Các đặc trưng của thư TắC - - ch rrn 10

Thư rác thường có những đặc trưng riêng biệt giúp phân biệt với thư thông thường, chủ yếu dựa vào thông tin địa chỉ gửi không xác định hoặc giả mạo và nội dung truyền tải Luận văn này tập trung vào các đặc trưng nội dung của thư, bao gồm chủ đề và nội dung, được sử dụng để xây dựng các mô hình học sâu Các đặc trưng về nội dung truyền tải của thư để phân biệt thư rác được tổng hợp trong Bảng 1.1.

Bảng 1.1 Các đặc trưng của nội dung thư rác

Thu có lời chao hỏi chung chung, không xác định đến người nhận.

Kính gửi quý doanh nghiệp, em xin được phép tự giới thiệu,

Nội dung thư mang những lời hứa hẹn (trúng thưởng, nhận quà, ).

Bạn là một trong số những người may mắn được chọn để nhận thưởng chiếc iphone 16 sap ra mat,

Thư có nội dung mang tinh khan cấp

3 | dé dẫn dắt người dùng thực hiện một hành động nào đó.

Mật khâu của bạn sẽ hết hạn ngày hôm nay. Hãy bam vào đường dan sau để thay đổi ngay NHÂN VÀO ĐÂY

Thư có nội dung yêu cầu người nhận

4 | cung cấp thông tin cá nhân hoặc tài khoản.

Hộp thư bạn đã vượt quá giới hạn lưu trữ.

Hãy cung cấp: Tên, Tên người dùng, Mật khẩu, Thư điện tử, Điện thoại Nếu bạn không cung câp, hộp thư của bạn sẽ bị vô hiệu hóa.

Thư chứa nội dung dẫn dắt người

5 | dùng nhấn vào đường dẫn liên kết hoặc tập tin đính kèm độc hại.

Kích hoạt tài khoản của bạn ngay bây giờ đề tránh bị vô hiệu hóa BAM VÀO DAY DEKÍCH HOẠT TÀI KHOẢN CỦA BẠN

Những thách thức trong xây dựng bộ dữ liệu thư rác tiếng Việt

Với sự phát triển của công nghệ, thư rác ngày càng gia tăng và nội dung trở nên phong phú, nhắm đến nhiều đối tượng người dùng khác nhau Điều này đã đặt ra thách thức trong việc phát hiện thư rác tiếng Việt, đặc biệt là do sự đa dạng trong hình thức và nội dung của chúng.

Thư rác ngày càng đa dạng, đặc biệt là các loại thư quảng cáo, gây khó khăn trong việc phân loại và phát hiện Để giải quyết thách thức này, cần có sự báo cáo từ người dùng để cung cấp dữ liệu huấn luyện cho các mô hình phát hiện thư rác Hơn nữa, nội dung thư rác liên tục thay đổi nhằm tránh bị phát hiện, đòi hỏi các hệ thống phải được cập nhật thường xuyên để nâng cao hiệu quả phát hiện thư rác.

1.7 Phát biểu bài toán và đóng góp của luận văn

Bài toán phát hiện thư rác tiếng Việt là một bài toán phân loại nhị phân với hai lớp: thư rác (ký hiệu là 1) và thư thông thường (ký hiệu là 0) Đầu vào của hệ thống là nội dung thư điện tử tiếng Việt, bao gồm cả chủ đề và nội dung Hệ thống sẽ rút trích đặc trưng từ dữ liệu đầu vào và sử dụng các mô hình học sâu để thực hiện phân loại Kết quả đầu ra sẽ là xác suất dự đoán, nếu xác suất lớn hơn hoặc bằng 0.5 thì thư được phân loại là thư rác, ngược lại nếu nhỏ hơn 0.5 thì là thư thông thường Qua đó, hệ thống có khả năng phát hiện thư rác tiếng Việt một cách hiệu quả.

CẬP NHẬT HOP THU CUA BAN’ : _

@ Agostinho Francisco Langa Junior F : ao S igo = 2 | Huân luyện e 4 Š ;

& a Tiền xử lý Đánh giá

Hình 3.2 Quá trình xây dựng bộ đữ liệu thư rác tiếng Việt

Hình 3.2 mô tả quá trình xây dựng bộ dữ liệu thư rác tiếng Việt Chi tiết các bước thực hiện như sau:

Bước 1 trong việc xây dựng bộ dữ liệu thư rác tiếng Việt bao gồm hai nguồn chính: đầu tiên, dữ liệu được thu thập từ thư cá nhân của tác giả, đại diện cho một người sử dụng thư điện tử; thứ hai, dữ liệu được thu thập thông qua tính năng báo cáo thư rác của người dùng trong hệ thống thư điện tử, đại diện cho toàn bộ người dùng Tính năng này hoạt động như sau: khi nhận được thư trong hộp thư đến mà người dùng cho là thư rác (như thư quảng cáo, xin tài trợ, lừa đảo hay nặc danh), họ có thể chọn thư và báo cáo là thư rác Ngược lại, nếu nhận được thư trong thư mục thư rác mà người dùng cho là không phải thư rác, họ có thể chọn thư và báo cáo không phải là thư rác.

Các thư mà người dùng báo cáo là thư rác sẽ được chuyển vào tài khoản spam, trong khi các thư không bị báo cáo là thư rác sẽ được gửi đến tài khoản ham trong hệ thống thư điện tử.

Bước 2: Tác giả kiểm tra các báo cáo từ người dùng về thư spam và ham để xác định tính chính xác của các báo cáo Sau đó, tác giả phân loại các loại thư theo lĩnh vực và loại spam phổ biến, gán nhãn tương ứng cho các thư đã thu thập Đối với những thư không phải spam được báo cáo, tác giả thực hiện kiểm tra và phân loại theo các lĩnh vực khác nhau, sau đó lưu trữ vào thư mục Ham.

Các thư được phân loại theo nhiều lĩnh vực như giáo dục, kinh doanh, tài chính, công nghệ, du lịch, y tế, bất động sản, dịch vụ công và các lĩnh vực khác Trong quá trình xử lý, các thư trong thư mục này sẽ được gán nhãn tự động là "ham" Đối với các thư được báo cáo là thư rác, tác giả sẽ kiểm tra và phân loại chúng theo các loại thư rác phổ biến như thư quảng cáo, thư lừa đảo, thư nặc danh và các thư xin tài trợ, sau đó lưu vào thư mục Spam.

Spam sẽ được tự động gán nhãn trong quá trình xử lý Mỗi email sau khi kiểm tra và phân loại sẽ được lưu trữ dưới dạng tệp eml, với định dạng tên tệp là “Loại thư_Chủ đề.eml” Ví dụ, một tệp email có thể mang tên “Ads_Chỉ Từ 195K_Tận Hưởng Khuyến Mãi”.

Trong khoảng thời gian từ 12.07 đến 18.07, các thư điện tử được phân loại thành thư quảng cáo với tiêu đề “Chỉ Từ 195K _ Tận Hưởng Khuyến Mãi Có Hạn 12.07 - 18.07” Quá trình xử lý sẽ đọc nội dung các thư eml trong các thư mục Ham và Spam, trích xuất chủ đề và nội dung, xác định loại thư dựa trên tên tập tin, đồng thời gán nhãn thư là thư rác nếu nằm trong thư mục Spam và thư thông thường nếu ở thư mục Ham.

Sau khi trích xuất chủ đề và nội dung của thư điện tử, tác giả tiến hành tiền xử dữ liệu bằng cách làm sạch dữ liệu, loại bỏ các từ, số, dấu câu, biểu tượng, đường dẫn liên kết và địa chỉ email không cần thiết Phần chữ ký của người gửi cũng được loại bỏ vì không có ý nghĩa trong quá trình huấn luyện mô hình phát hiện thư rác tiếng Việt Việc này giúp giảm thời gian huấn luyện cho các mô hình sau này.

Sau khi hoàn thành quá trình tiền xử lý, tác giả lưu trữ dữ liệu các thử điện tử vào tệp văn bản định dạng csv, với mỗi dòng tương ứng với một mẫu thư điện tử kèm theo nhãn, loại thư và nội dung Bộ dữ liệu thư rác tiếng Việt được xây dựng gồm 4359 thư điện tử, trong đó có 2329 thư được gán nhãn là thư thông thường và 2030 thư được xác định là thư rác Thông tin chi tiết về bộ dữ liệu này được trình bày trong Bảng 3.1.

- Bước 5: Tác giả thực hiện chia bộ dữ liệu thư rác tiếng Việt theo tỉ lệ 80:20 với

80% dữ liệu phục vụ cho việc huấn luyện các mô hình và 20% dữ liệu phục vụ cho việc đánh giá các mô hình.

Bảng 3.1 Thông tin bộ dữ liệu thư rác tiếng Việt sau khi xử lý

Trong tổng số 4359 thư điện tử, có 2329 thư thông thường và 2030 thư rác Kích thước ngắn nhất của một thư thông thường là 8 ký tự, trong khi kích thước dài nhất lên đến 1297 ký tự.

Kích thước trung bình của | thư thông thường 224

Kích thước ngắn nhất của 1 thư rác 5 Kích thước dài nhất của 1 thư rác 1350

Kích thước trung bình của | thư rác 243

3.2.2 Ứng dụng các mô hình học sâu

3.2.2.1 Mô hình Word2Vec Đề các mô hình học máy cũng như các mô hình học sâu có thể hiểu được đữ liệu văn bản mà ở đây là nội dung thư điện tử thì nội dung thư điện tử phải được biểu diễn dưới dạng vector số Có nhiều cách đề biểu diễn nội dung văn bản như thư điện tử dưới dạng vector số như BOWs, TF-IDF, Word2Vec, Trong đó, BOWs là phương pháp đơn giản trong xử lý ngôn ngữ tự nhiên dé chuyên văn bản thành vector số dựa trên sự xuất hiện của từ trong văn bản BOWs đối xử tất cả các từ như nhau và không thé hiện được mối quan hệ giữa các từ khác nhau trong văn bản Một phương pháp khác là TF-IDF cũng được sử dung dé chuyền văn bản thành vector số Ưu điểm của TF-IDF là phân biệt được từ quan trọng và từ hiém trong van bản dựa trên tần suất xuất hiện của từ trong câu văn bản và trong văn bản nhưng cũng không thê hiện được mối quan hệ giữa các từ khác nhau trong văn bản Word2Vec là một mô hình xử lý ngôn ngữ tự nhiên được phát triển bởi Google, có khả năng biểu diễn ngữ cảnh của từ, giúp máy tính hiéu ngôn ngữ tốt hơn so với BOWs và TF-IDF Word2Vec sử dụng một mạng nơron với một lớp ân dé huấn luyện dự đoán một từ dựa trên các từ ngữ cảnh của nó (theo cơ chế CBOWs) hoặc dự đoán các từ ngữ cảnh dựa trên một từ được cho trước (theo cơ chế Skip-gram) Kích thước của lớp ân trong mạng noron chính là kích thước của vector biểu diễn từ Do đó, Word2Vec được chon dé huấn luyện trên kho từ gồm các từ trong bộ dữ liệu thư rác tiếng Việt thu thập được và tạo ra biêu diễn vector số nhiều chiều của các từ tiếng Việt tương ứng.

Hệ thống đề xuất không chỉ sử dụng mô hình Word2Vec để biểu diễn vector số cho các mô hình học sâu như CNN và BiLSTM, mà còn áp dụng mô hình PhoBERT, một mô hình xử lý ngôn ngữ tự nhiên tiên tiến đã được tiền huấn luyện cho tiếng Việt Mô hình PhoBERT cho phép biểu diễn vector số theo ngữ cảnh hai chiều của từ dựa trên kiến trúc BERT, từ đó giúp nâng cao chất lượng so sánh và đánh giá kết quả.

Mô hình CNN ban đầu được phát triển để nhận diện chữ số viết tay trong ngành bưu chính Hiện nay, ứng dụng của mô hình mạng CNN đã trở nên phổ biến trong nhiều lĩnh vực khác nhau.

Giải thuật thực Win o cceeccecscessessssessesssesssecssecssecssesssesssessuessesssesssecssecasecsses 34

3.3.1 Sơ đồ giải thuật xây dựng bộ dữ liệu thư rác tiếng Việt

Sơ đồ giải thuật cho quá trình xử lý và xây dựng bộ dữ liệu thư rác tiếng Việt được thể hiện trong Hình 3.10 Quá trình này bao gồm việc khởi tạo các biến như v subdir, msg_files, msg và i=0, cùng với việc tạo danh sách msgtexts, list_types và list_labels để lưu trữ thông tin từ các tệp tin tin nhắn.

Extract msgsub, msgbody using BytesParser msgtext = msgsub + '.'+ msgbody msgtext = preprocess_text(msgtext) r § type = str(msg).split('_')[0]-split(\\)[-1]

True - 1 False | label = ‘ham’ 4©——— subdir = ham —>———* label = “spam” list msgtexts.append(msgtext) list_types.append(type) list_labels.append(label)

—==— [ df_eml = pd.DataFrame([list labels, list types, list _msgtexts]).T df_eml.to_csv(‘dataset.csv’) Ụ dataset.csv

Hình 3.10 Sơ đồ giải thuật quá trình xây dựng bộ dữ liệu thư rác tiếng Việt

Quá trình xử lý thư điện tử bắt đầu với việc kiểm tra, phân loại và lưu trữ các thư dưới định dạng tệp tin eml Sau khi xử lý, kết quả thu được là bộ dữ liệu thư rác tiếng Việt, được lưu trữ dưới định dạng tệp tin csv Sơ đồ giải thuật chi tiết của quá trình này sẽ được trình bày rõ ràng.

Giải thuật: Xây dựng bộ dữ liệu thư rác tiếng Việt Đầu vào:

- Danh sách chứa tên các tập tin thư điện tủ msg_files

- Danh sách lưu nội dung các thu sau xử lý msg_texts[]

- Danh sách lưu thể loại thư tương ứng msg_types[]

- Danh sách lưu nhãn của các thư tương ứng msg_labels[]

- dataset.csv // Bộ dt liệu thu rác tiếng Việt

01:For each item in msg £files

03: Trích xuất msgsub, msgbody của item dùng BytesParser

06: type

Tiêu đề	Phát hiện thư rác tiếng Việt sử dụng các mô hình học sâu
Tác giả	Ngụ Thanh Bệnh
Người hướng dẫn	TS. Nguyễn Tân Cầm
Trường học	Đại học Quốc gia TP HCM Trường Đại học Công nghệ Thông tin
Chuyên ngành	Công nghệ thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2024
Thành phố	TP HCM

Định dạng
Số trang	78
Dung lượng	91,75 MB