Qua bài nghiên cứu Kranthi Reddy & Maruthi Padmaja, 2019 có thể kể đến một số kỹ thuật không sử dụng học máy thông thường được áp dụng trong quá khứ : - Lọc dựa trên danh sách: Phương ph
Trang 1KHOA CÔNG NGHỆ THÔNG TIN VÀ KINH TẾ SỐ
KHÓA LUẬN TỐT NGHIỆP
NGHIÊN CỨU ĐỀ XUẤT GIẢI PHÁP DỰA TRÊN HỌC MÁY
Trang 2
LỜI CẢM ƠN
LỜI CAM KẾT
DANH MỤC CHỮ VIẾT TẮT
DANH MỤC HÌNH ẢNH
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục tiêu đề tài 2
3 Đối tượng và phạm vi nghiên cứu 2
4 Phương pháp nghiên cứu 2
5 Bố cục đề tài 2
CHƯƠNG I: TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN VÀ BÀI TỐN PHÁT HIỆN TIN NHẮN RÁC SMS 3
1.1 Tổng quan bài tốn 3
1.1.1 Bài tốn phân lớp văn bản 3
1.1.2 Giới thiệu về bài tốn phát hiện tin nhắn rác SMS 3
1.1.2.1 Tin nhắn rác SMS 3
1.1.2.2 Bài tốn phát hiện tin nhắn rác SMS 4
1.2 Tổng quan nghiên cứu 7
1.2.1 Các nghiên cứu liên quan 7
1.2.2 Nhận định chung 22
1.3 Kết luận chương 1 24
CHƯƠNG II: CƠ SỞ KỸ THUẬT CHO BÀI TỐN PHÂN LỚP VĂN BẢN, TRIỂN KHAI CỤ THỂ CHO BÀI TỐN PHÁT HIỆN TIN NHẮN RÁC SMS 25 2.1 Cơ sở kỹ thuật cho bài tốn 25
2.1.1 Định lý Bayes 25
2.1.2 Thuật tốn Nạve Bayes 26
2.2 Biến thể của Nạve Bayes 28
Trang 32.2.3 Bernoulli Nạve Bayes 29
2.2.3 Complement Nạve Bayes 29
2.3 Ứng dụng của Nạve Bayes 29
2.4 Kết luận chương 2 32
CHƯƠNG III: XÂY DỰNG MƠ HÌNH PHÁT HIỆN TIN NHẮN RÁC SMS SỬ DỤNG BỘ DỮ LIỆU PHỨC HỢP 33
3.1 Phát biểu bài tốn 33
3.1.1 Mục tiêu bài tốn 33
3.1.2 Dữ liệu bài tốn 33
3.2 Giải pháp đề xuất 37
3.2.1 Tiền xử lý dữ liệu 37
3.2.2 Xây dựng và huấn luyện mơ hình 45
3.3 Kết quả và đánh giá 48
3.3.1 Kết quả 49
3.3.2 Đánh giá 49
3.4 Kết luận chương 3 50
KẾT LUẬN 51
1 Kết quả đạt được 51
2 Những hạn chế tồn tại và hướng phát triển bài tốn 51
TÀI LIỆU THAM KHẢO 53
Trang 4
Để hoàn thành khóa luận này, em xin gửi lời cảm ơn đến các Quý Thầy cô Khoa Công nghệ thông tin và Kinh tế số, Học viện Ngân hàng đã tạo cơ hội cho em được học tập, rèn luyện và tích lũy kiến thức, kỹ năng để thực hiện khóa luận
Đặc biệt, em xin gửi lời cảm ơn chân thành nhất đến Giảng viên hướng dẫn ThS
Vũ Duy Hiến đã tận tình chỉ dẫn, theo dõi và đưa ra những lời khuyên bổ ích giúp em giải quyết được các vấn đề gặp phải trong quá trình nghiên cứu và hoàn thành khóa luận một cách tốt nhất
Vì kho tàng kiến thức là vô hạn, nên bản thân đều sẽ tồn tại những hạn chế nhất định Chính vì thế trong quá trình hoàn thành khóa luận em sẽ không thể tránh khỏi những thiếu sót Em hy vọng sẽ nhận được những lời góp ý từ thầy cô để khóa luận được hoàn thiện hơn
Kính chúc thầy cô luôn có thật nhiều sức khỏe và thành công trong con đường giảng dạy của mình, đặc biệt là đưa Khoa Công nghệ thông tin và Kinh tế số của Học viện Ngân Hàng ngày càng phát triển hơn
Trân trọng
Trang 5Tôi xin cam đoan khóa luận là công trình nghiên cứu độc lập của cá nhân tôi dưới
sự chỉ dẫn của Giảng viên hướng dẫn ThS Vũ Duy Hiến Tất cả các nguồn tài liệu đã được công bố đầy đủ, nội dung của khóa luận là trung thực
Hà Nội, ngày 02 tháng 05 năm 2024
Sinh viên thực hiện
(Ký và ghi rõ họ tên)
Nông Thùy Linh
Trang 6STT Ký hiệu chữ viết tắt Chữ viết đầy đủ
1 BoW Bag of Words
2 CBOW Continuous Bag of Words
3 CNN Convolutional Neural Network
4 DKIM DomainKeys Identified Mail
5 DNN Deep learning neural network
6 DT Decision Tree
7 FNN Feedforward Neural Network
8 KNN K Nearest Neighbor
9 LR Logistic Regression
10 LSTM Long Short-Term Memory
11 MNB Multinomial Nạve Bayes
12 NLP Natural Language Processing
13 RF Random Forest
14 SGD Stochastic Gradient Descent
15 SMS Short Message Service
16 SPF Sender Policy Framework
17 SVM Support Vector Machine
18 TF-IDF Term Frequency-Inverse Document Frequency
Trang 7Hình 1 Phương pháp đề xuất (Azeez Oyeyemi & K Ojo, 2023) 8
Hình 2 Bảng so sánh kết quả giữa các mơ hình (Azeez Oyeyemi & K Ojo, 2023) 9
Hình 3 Các bước tiền xử lý dữ liệu, lập mơ hình và xác thực mơ hình (Ananda Raharja et al., 2022) 10
Hình 4 Kết quả đánh giá hiệu suất phân loại (Ananda Raharja et al., 2022) 10
Hình 5 Kiến trúc của mơ hình Transformer (LIU et al., 2021) 11
Hình 6 Kết quả trên tập dữ liệu SMS Spam Collection v.1 (LIU et al., 2021) 12
Hình 7 Kết quả trên tập dữ liệu UtkMl's Twitter Spam Detection Competition (LIU et al., 2021) 12
Hình 8 So sánh hiệu suất của các phương pháp (ALAA AL-KABBI et al., 2023) 13
Hình 9 Cấu trúc tổng quan của Semorph khi thực hiện nhiệm vụ phát hiện văn bản rác tiếng Trung (Lai et al., 2022) 14
Hình 10 Tập dữ liệu sử dụng cho bài nghiên cứu 15
Hình 11 Kết quả đánh giá trên tập kiểm tra (Lai et al., 2022) 16
Hình 12 Quy trình lọc tin nhắn rác của bài tốn (Lee & Kang, 2019) 17
Hình 13 Cách lọc thư rác của phương pháp FNN (Lee & Kang, 2019) 18
Hình 14 Lượng dữ liệu huấn luyện và kiểm tra cho bài tốn (Lee & Kang, 2019) 18
Hình 15 Độ chính xác của phương pháp SVM (Lee & Kang, 2019) 19
Hình 16 Độ chính xác của phương pháp FNN (Lee & Kang, 2019) 19
Hình 17 Cấu trúc tập dữ liệu sử dụng cho mơ hình (Vu Minh et al., 2022) 20
Hình 18 Mơ hình phát hiện tin nhắn rác tiếng Việt (Vu Minh et al., 2022) 21
Hình 19 Cấu trúc của mơ hình DNN (Vu Minh et al., 2022) 21
Hình 20 Kết quả mơ hình (Vu Minh et al., 2022) 22
Hình 22 Cấu trúc dữ liệu gốc của bài tốn 35
Hình 23 Cấu trúc tập dữ liệu tin nhắn hợp lệ 38
Hình 24 Cấu trúc tập dữ liệu tin nhắn rác 38
Hình 25 Trích xuất đặc trưng 44
Hình 26 Khởi tạo mơ hình Nạve Bayes 47
Hình 27 Kết quả của mơ hình phân loại tin nhắn hợp lệ SMS - tin nhắn rác SMS 49
Trang 8Bảng 1 Số lượng nhãn ham và spam tập dữ liệu SMS Spam Collection Dataset 36
Bảng 2 Số lượng nhãn spam tập dữ liệu Philippine Spam SMS 36
Bảng 3 Số lượng nhãn spam tập dữ liệu Super SMS Dataset 36
Bảng 4 Bảng thống kê tổng số lượng nhãn 37
Trang 9MỞ ĐẦU
1 Lý do chọn đề tài
Trong thời đại phát triển vượt bậc của công nghệ thông tin hiện nay, vấn đề phát hiện và xử lý tin nhắn rác vẫn còn là một thách thức không ngừng Các tin nhắn rác thường đi kèm với nội dung, quảng cáo không mong muốn hoặc thậm chí là các tin nhắn mang thông điệp lừa đảo nhằm mục đích lừa đảo thông tin cá nhân hoặc tài chính của người dùng Mặc dù đã có nhiều biện pháp như cấm các cuộc gọi và tin nhắn rác, xử phạt các tổ chức vi phạm, nhưng tình trạng này vẫn tiếp tục diễn ra và không dễ dàng giải quyết Nguyên nhân chính của vấn đề này có thể là do sự phát triển của công nghệ, khiến cho việc gửi những tin nhắn và thực hiện các cuộc gọi rác trở nên dễ dàng hơn cho các tổ chức không trung thực
Theo thống kê của trang Robokiller (2023 United States Robotext Trends, 2023),
trong năm 2023 người Mỹ nhận được 415.172.654 tin nhắn rác mỗi ngày, 2.906.208.576 tin nhắn rác mỗi tuần, 665.100.057 tin nhắn rác vào cuối tuần, 288.314 tin nhắn rác mỗi phút Cũng theo một báo cáo về thư rác và lừa đảo của Truecaller Insights năm 2022 tại
Hoa Kỳ (Truecaller Insights 2022 U.S Spam & Scam Report, 2024), có tới 68,4 triệu
người Mỹ chiếm 26% dân số Mỹ báo cáo bị mất tiền do lừa đảo qua điện thoại Và trong
3 người Mỹ sẽ có 1 người từng trở thành nạn nhân của các vụ lừa đảo qua điện thoại, trong đó có 20% số người từng bị nhiều hơn một lần Số liệu gần nhất của Ủy ban
Thương mại Liên bang, vào năm 2022 (People Are Losing More Money to Scammers than Ever before Here’s How to Keep Yourself Safe., 2023) tin nhắn lừa đảo khiến
người Mỹ thiệt hại hơn 326 triệu USD
Do đó, việc phát hiện và ngăn chặn tin nhắn rác SMS là một nhiệm vụ quan trọng
và cần được ưu tiên hàng đầu Phát hiện và ngăn chặn tin nhắn rác SMS không chỉ giúp nâng cao mức độ cảnh báo rủi ro cho người dùng trong việc bảo vệ thông tin cá nhân
mà còn giúp bảo vệ người dùng khỏi các rủi ro tiềm ẩn
Vì vậy, khóa luận này sẽ trình bày về đề tài “Nghiên cứu đề xuất giải pháp dựa
trên học máy nhằm phát hiện tin nhắn rác di động” nhằm sử dụng kỹ thuật tiên tiến
Trang 10như học máy tăng cường khả năng phát hiện và ngăn chặn tin nhắn rác để từ đó có thể đóng góp vào việc bảo vệ thông tin cá nhân và tài sản của người dùng
2 Mục tiêu đề tài
Mục tiêu của đề tài là đóng góp về mặt đa dạng cho bộ dữ liệu tin nhắn SMS tiếng Anh và xây dựng mô hình phát hiện tin nhắn rác di động dựa trên kho dữ liệu phức hợp tin nhắn SMS tiếng Anh
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
Nghiên cứu này tập trung vào việc xây dựng mô hình phát hiện tin nhắn rác nhằm nâng cao mức độ cảnh báo rủi ro cho dịch vụ tin nhắn di động SMS Đối tượng của nghiên cứu là các tin nhắn SMS bằng tiếng Anh
3.2 Phạm vi nghiên cứu
Nghiên cứu về việc xây dựng mô hình phát hiện tin nhắn rác di động SMS
4 Phương pháp nghiên cứu
Phương pháp nghiên được sử dụng trong khóa luận này là phương pháp nghiên cứu khảo sát và phân tích kết quả khảo sát Trên cơ sở này, khóa luận đề xuất một số kỹ thuật mới cho bài toán đặt ra và sử dụng phương phá p thực nghiệm để đánh giá
5 Bố cục đề tài
Ngoài phần mở đầu và kết luận, khóa luận này gồm 3 chương chính như sau:
Chương 1: Tổng quan về phân lớp văn bản và bài toán phát hiện tin nhắn rác SMS
Chương 2: Cơ sở kỹ thuật cho bài toán phân lớp văn bản, triển khai cụ thể cho bài toán phát hiện tin nhắn rác SMS
Chương 3: Xây dựng mô hình phát hiện tin nhắn rác SMS sử dụng bộ dữ liệu
phức hợp
Trang 11CHƯƠNG I: TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN VÀ BÀI TOÁN PHÁT
HIỆN TIN NHẮN RÁC SMS
Chương 1 giới thiệu tổng quan về bài toán phân lớp văn bản cụ thể là bài toán phát hiện tin nhắn rác SMS Phần sau sẽ trình bày những nghiên cứu liên quan đến việc lọc thư và tin nhắn rác trên thế giới, cũng như ở Việt Nam, đồng thời điểm qua các kết quả thu được thông qua việc áp dụng các mô hình học máy và học sâu Cuối cùng, sẽ đề cập đến tầm quan trọng của việc phát hiện tin nhắn rác SMS
1.1 Tổng quan bài toán
1.1.1 Bài toán phân lớp văn bản
Phân lớp văn bản (Text Classification) là một kỹ thuật máy học Nó liên quan đến việc tự động gán một hoặc nhiều nhãn cho một văn bản dựa trên nội dung của nó Mục tiêu của phân lớp văn bản là nhận biết loại hoặc chủ đề của một văn bản dựa trên những đặc điểm ngôn ngữ trong văn bản đó Ví dụ, trong một bài toán phân loại email,
hệ thống có thể phải quyết định xem email có phải là thư rác hay không hoặc trong việc phân loại các bài báo trên mạng theo các chủ đề như tài chính, kinh doanh, khoa học, đời sống, hay phân loại đánh giá phản hồi từ của người tiêu dùng là tích cực hay tiêu cực, Và bài toán phát hiện tin nhắn rác SMS là một bài toán con của bài toán phân lớp văn bản
1.1.2 Giới thiệu về bài toán phát hiện tin nhắn rác SMS
1.1.2.1 Tin nhắn rác SMS
Tin nhắn rác SMS là những tin nhắn không được người dùng yêu cầu hoặc mong muốn nhận trên điện thoại di động Những tin nhắn rác SMS có thể chứa những nội dung quảng cáo, lừa đảo, mã độc hoặc mang những thông điệp không liên quan
Tin nhắn rác SMS có thể xuất phát từ đa dạng nguồn, bao gồm các máy chủ tự động hoặc số điện thoại được thiết lập một cách tự động để gửi hàng loạt tin nhắn Các nguồn gốc cụ thể của tin nhắn rác có thể là từ các công ty tiếp thị không đúng cách, cá nhân hoặc tổ chức với mục đích quảng cáo sản phẩm, dịch vụ hoặc những thông điệp
Trang 12không mong muốn khác Có một số cách mà phía gửi đi tin nhắn rác SMS có thể có được số điện thoại của người dùng:
- Mua bán danh sách số điện thoại: Có thể có các danh sách số điện thoại được mua bán trên thị trường đen hoặc từ các nguồn không minh bạch Thông thường, những danh sách này chứa thông tin cá nhân của người dùng gồm số điện thoại,
và được dùng để gửi các tin nhắn không mong muốn
- Thu thập thông tin từ ứng dụng: Các ứng dụng có thể lấy số điện thoại của người dùng di động, thông qua các biểu mẫu đăng ký, cuộc thăm dò ý kiến, hoặc các hoạt động khác Thông tin này có thể tiếp tục được truyền đi hoặc bán cho bên thứ ba mà người dùng không được thông báo
- Tìm kiếm công cộng từ các trang web: Số điện thoại có thể có sẵn trên các trang web công cộng hoặc các dịch vụ trực tuyến khác Các bên gửi tin nhắn rác có thể
sử dụng thông tin này để gửi tin nhắn rác
- Tự động quét hoặc sinh số liệu: Các bên gửi tin nhắn rác có thể sử dụng các phần mềm quét tự động trên Internet hoặc những nguồn dữ liệu công cộng khác để thu thập số điện thoại của người dùng mà không cần sự cho phép của họ
Như vậy, tin nhắn rác SMS thường không được gửi từ nguồn có nguồn gốc xác định và có thể đến từ đa dạng các nguồn khác nhau Trong nhiều trường hợp, người nhận tin nhắn rác không biết làm thế nào số điện thoại của họ đã được lấy và áp dụng với mục đích gửi tin nhắn rác
1.1.2.2 Bài toán phát hiện tin nhắn rác SMS
Bài toán phát hiện tin nhắn rác SMS vẫn là một bài toán quan trọng và đang tiếp tục được nghiên cứu và phát triển Mặc dù đã có nhiều bước tiến trong việc phát triển các kỹ thuật và công nghệ để chống lại tin nhắn rác SMS nhưng đồng thời các kẻ tấn công cũng không ngừng cải tiến các phương thức của họ để vượt qua các hệ thống phòng ngừa
Trong bài toán này, mục tiêu là phân loại các tin nhắn SMS thành hai lớp: tin nhắn rác (spam) và tin nhắn thường (ham) Thông qua việc ứng dụng các phương pháp
Trang 13và kỹ thuật toán học máy, hệ thống sẽ tự động nhận biết và phân loại các tin nhắn dựa trên các đặc điểm và tính chất của chúng Điều này có thể bao gồm việc phân tích nội dung của tin nhắn, trích xuất các đặc trưng như từ, cú pháp và các mẫu xuất hiện để đưa
ra quyết định về tính “rác” của một tin nhắn
Và trước khi các thuật toán học máy trở nên phổ biến trong phát hiện tin nhắn rác, các hệ thống phát hiện tin nhắn rác thường dựa vào các kỹ thuật truyền thống và các quy tắc Qua bài nghiên cứu (Kranthi Reddy & Maruthi Padmaja, 2019) có thể kể đến một số kỹ thuật không sử dụng học máy thông thường được áp dụng trong quá khứ :
- Lọc dựa trên danh sách: Phương pháp lọc trên danh sách dựa vào việc sử dụng
các danh sách được xác định trước để xác định xem một thư điện tử có phải là rác thư hay không Có ba loại chính của phương pháp lọc trên danh sách bao gồm danh sách đen, danh sách trắng và danh sách xám
Danh sách đen (Black List): Phương pháp lọc tin nhắn rác bằng danh
sách den là một trong những phương pháp truyền thống và phổ biến nhất Quy trình cốt lõi của phương pháp này chứa một tập hợp các địa chỉ hay
số điện thoại đã được xác định trước của những kẻ gửi thư rác và sau đó chặn các tin nhắn mới từ những địa chỉ đã định
Danh sách trắng (White List): Phương pháp lọc tin nhắn rác bằng danh
sách trắng là một phương pháp ngược lại với danh sách đen Danh sách trắng chỉ chấp nhận các tin nhắn từ danh sách được xác định trước là an toàn hoặc hợp lệ Các tin nhắn từ nguồn nằm ngoài danh sách này sẽ bị chặn hoặc gửi vào thùng rác
Danh sách xám (Grey List): Kỹ thuật lọc tin nhắn rác danh sách xám sẽ
từ chối các tin nhắn từ người gửi không xác định và gửi thông báo thất bại cho người gửi lần đầu tiên Nếu người gửi gửi lại tin nhắn lần thứ hai (hầu hết các người gửi hợp pháp sẽ làm điều này), thì email được gửi đến hộp thư đến và địa chỉ được thêm vào danh sách xám Điều này được thực hiện
vì hầu hết các kẻ gửi rác thư chỉ gửi thư rác một lần
Trang 14- Lọc dựa trên nội dung: Phương pháp lọc dựa trên nội dung tập trung vào việc
phân tích nội dung của tin nhắn có phải là tin nhắn rác hay không Bộ lọc dựa trên nội dung bao gồm bộ lọc dựa trên từ và bộ lọc heuristic
Lọc dựa trên từ: Phương pháp lọc dựa trên từ chủ yếu tập trung vào nội
dung của tin nhắn Nó chứa danh sách các từ thường được tìm thấy trong các tin nhắn rác Do đó, khi một tin nhắn đến, nó so sánh nội dung của nó với danh sách từ Nếu bất kỳ từ nào trong tin nhắn phù hợp với danh sách thì tin nhắn được coi là tin nhắn rác Các bộ lọc dựa trên từ cũng tạo Danh sách từ chứa các từ thông thường như giảm giá, cashback, thì tin nhắn có thể không được nhận từ người gửi hợp pháp Kẻ gửi rác thư cũng
có thể viết sai từ với mục đích đánh lừa Danh sách cần được cập nhật đều đặn, vì vậy nó tốn thời gian
Lọc heuristic: là các bộ lọc dựa trên quy tắc chứa danh sách từ nhưng ở
đây mỗi từ được gán mức ưu tiên Các từ thường được sử dụng trong các tin nhắn rác được gán mức ưu tiên cao hơn và các từ thường được sử dụng trong các thư thông thường được gán mức ưu tiên thấp hơn Bộ lọc phải tổng hợp tất cả các giá trị ưu tiên của các từ trong thư để có được tổng điểm Nếu tổng điểm lớn hơn giá trị quan trọng thì thư được coi là rác thư, nếu không thì nó được gửi đến hộp thư đến
Nhược điểm của các phương pháp không sử dụng học máy:
- Lọc dựa trên danh sách:
Khả năng tránh lỗi thấp: Các phương pháp này dễ bị đánh lừa nếu người
gửi thay đổi địa chỉ học số điện thoại
Rủi ro về sai sót: Có thể xảy ra các trường hợp danh sách đen chặn nhầm
các tin nhắn hợp lệ hay bỏ sót các tin nhắn hợp lệ nếu chúng không được
thêm vào danh sách trắng
- Lọc dựa trên nội dung:
Rủi ro về sai sót: Phương pháp này có thể tạo ra nhiều kết quả sai sót nếu
các từ thông thường bị xem là rác thư xuất hiện trong những tin nhắn hợp
lệ Điều này có thể làm giảm hiệu suất của hệ thống lọc
Trang 15 Khả năng chống lại các kĩ thuật phịng ngừa: Những người gửi rác thư
cĩ thể sử dụng kỹ thuật chống lừa đảo như việc sử dụng các từ khơng phổ biến hoặc viết sai chính tả để tránh việc lọc dựa trên nội dung
Cần cập nhật liên tục: Danh sách từ khĩa hoặc các tiêu chuẩn được sử dụng trong phương pháp này cần được cập nhật liên tục để đảm bảo hiệu quả Việc này cĩ thể gây tốn thời gian và tài nguyên
Những kỹ thuật khơng sử dụng học máy như lọc dựa trên danh sách và dựa trên nội nung thường được dùng để thuật lọc tin nhắn rác trong quá khứ Những kỹ thuật này
cĩ những ưu điểm, nhưng cũng tồn tại nhiều nhược điểm bao gồm cả sự bất khả thi trong việc xử lý các mẫu phức tạp của tin nhắn rác và khả năng dễ dàng bị vượt qua bởi các
kỹ thuật gian lận của những kẻ tấn cơng thơng minh Do đĩ, bài tốn phân loại tin nhắn rác thực sự vẫn cịn là một bài tốn mang tính chất thời sự và cần thiết
Thực tế cũng cho thấy phương pháp lọc tin nhắn rác SMS dựa trên học máy thường cho kết quả tốt nhất trong việc phát hiện tin nhắn rác và bảo vệ người dùng di động khỏi các mối đe dọa Các mơ hình học máy cĩ thể tự động học từ dữ liệu và điều chỉnh mơ hình của mình để tối ưu hĩa hiệu suất, giúp chúng trở thành một cơng cụ mạnh
mẽ và hiệu quả trong việc ngăn chặn tin nhắn rác SMS
1.2 Tổng quan nghiên cứu
Đã cĩ nhiều nghiên cứu liên quan, đề xuất cho bài tốn phát hiện tin nhắn rác Một số nghiên cứu đã thử nghiệm và đạt được kết quả tốt bằng cách sử dụng và kết hợp các phương pháp học máy khác nhau như Nạve Bayes, BERT, hay ứng dụng các mơ hình học sâu khác để tăng cường hiệu suất phát hiện tin nhắn rác hay thư rác Hiệu suất của các phương pháp này cĩ thể thay đổi tùy thuộc vào đặc điểm của tập dữ liệu và các yếu tố mơi trường khác Để đạt được hiệu suất tốt nhất, việc sử dụng các kỹ thuật tiền
xử lý dữ liệu, tinh chỉnh tham số mơ hình và kỹ thuật đánh giá chính xác là rất cần thiết
Cụ thể các nghiên cứu được trình bày sau đây
1.2.1 Các nghiên cứu liên quan
Bài tốn phát hiện tin nhắn rác là một bài tốn quan trọng và phát triển mạnh mẽ trên thế giới Qua nghiên cứu và khảo sát về bài tốn này, nhận thấy các nghiên cứu đã
Trang 16áp dụng nhiều phương pháp mới và tiên tiến để phát hiện tin nhắn rác hiệu quả hơn Cụ thể:
(Azeez Oyeyemi & K Ojo, 2023) là bài báo đề xuất một hệ thống phát hiện và phân loại tin nhắn rác SMS hiệu quả dựa trên NLP và học máy Hệ thống này sử dụng
mơ hình BERT tiên tiến với mục đích trích xuất đặc trưng từ nội dung tin nhắn Các tin nhắn sau đĩ được kết hợp với các thuật tốn học máy để phân loại tin nhắn là rác hay tin nhắn thường Các mơ hình học máy, bao gồm Logistic Regression, Nạve Bayes, Gradient Boosting, SVM, và Random Forest, được tích hợp với BERT Nghiên cứu thực hiện tiền xử lý và mã hĩa mơ hình BERT đã hỗ trợ việc chuyển đổi tập dữ liệu thành định dạng số được dùng cho các nhiệm vụ xử lý NLP kế tiếp Bộ tiền xử lý đã chuẩn bị
dữ liệu đầu vào cho mơ hình BERT bằng cách thực hiện mã hĩa token, thêm các token đặc biệt như [CLS] và [SEP], phân đoạn dữ liệu đầu vào thành các chuỗi riêng biệt, che giấu các token và đệm chuỗi đầu vào đến một độ dài cố định Mơ hình BERT trải qua đào tạo trước xử lý dữ liệu dạng văn bản Bộ mã hĩa xử lý dữ liệu tiền xử lý để tạo ra các nhúng từ cĩ ngữ cảnh Bộ mã hĩa được tạo thành từ nhiều lớp transformer, những lớp này nắm bắt các mối tương quan theo ngữ cảnh giữa các từ trong văn bản đầu vào Các nhúng cĩ ngữ cảnh sau đĩ được chuyển đến lớp transformer kế tiếp cho đến lớp cuối cùng tạo ra một vector cố định cho dữ liệu đầu vào
Hình 1 Phương pháp đề xuất (Azeez Oyeyemi & K Ojo, 2023)
Trang 17Dữ liệu được sử dụng cho bài nghiên cứu gồm cĩ tổng cộng 6.986 dịng, gồm các tin nhắn thường và tin nhắn rác sẽ được sử dụng làm dữ liệu đầu vào cho mơ hình Cụ thể từ nguồn: Kaggle (UCI): Tập dữ liệu này bao gồm 5.572 dịng tin nhắn SMS, được phân loại thành ham và spam; Data Science Nigeria (DSN): Tập dữ liệu này bao gồm 1.141 tin nhắn văn bản, chủ yếu là các tin nhắn lừa đảo trong lĩnh vực tài chính và lao động nhận được từ khắp nơi trong nước Nigeria; Dữ liệu tự thu thập: Tác giả đã sử dụng Google Form để thu thập các tin nhắn spam mà người dùng di động nhận được tại địa phương, với tổng cộng 275 tin nhắn spam Kết quả đánh giá cho thấy rằng mơ hình phân loại Nạve Bayes + BERT đạt độ chính xác cao nhất là 97,31% với thời gian thực thi nhanh nhất là 0,3 giây trên tập dữ liệu kiểm tra Phương pháp này thể hiện một cải tiến đáng kể trong hiệu suất phát hiện rác
Hình 2 Bảng so sánh kết quả giữa các mơ hình (Azeez Oyeyemi & K Ojo, 2023)
Theo một nghiên cứu khác, (Ananda Raharja et al., 2022) được triển khai dựa trên một báo cáo từ Ủy ban Thương mại Liên bang Hoa Kỳ liên quan đến các hoạt động gian lận thơng qua tin nhắn SMS do những kẻ lừa đảo gây ra để thao túng các nạn nhân tiềm năng Do đĩ, nhĩm nghiên cứu đã phát triển một thuật tốn học cĩ giám sát được
áp dụng để dự đốn tin nhắn rác thành ba loại: tin nhắn rác, tin nhắn lừa đảo và tin nhắn quảng cáo Nghiên cứu đã sử dụng bộ dữ liệu SMS được gắn nhãn gồm: 1143 tin nhắn với 569 tin nhắn SMS gốc, 335 tin nhắn SMS lừa đảo và 239 tin nhắn SMS quảng cáo Sau khi trải qua giai đoạn tiền xử lý được biến đổi thành một mảng để dễ đọc bởi thuật tốn được áp dụng Cuối cùng, mục tiêu là dự đốn văn bản dựa trên đặc điểm của nĩ trong quá trình khai thác dữ liệu Giai đoạn này sẽ dự đốn các dữ liệu văn bản mới chưa xuất hiện trong tập dữ liệu đã sử dụng Đánh giá kết quả cũng cần được thực hiện thơng qua việc dụng phương pháp ma trận nhầm lẫn để đánh giá độ chính xác của phương pháp được sử dụng trong dự đốn Dưới đây là các bước được thực hiện trong bài nghiên cứu và kết quả của mơ hình được áp dụng trong nghiên cứu này là Logistic Regression (LR) và Multinomial Nạve Bayes (MNB) cĩ độ chính xác lên tới 99%
Trang 18Hình 3 Các bước tiền xử lý dữ liệu, lập mô hình và xác thực mô hình (Ananda
Raharja et al., 2022)
Hình 4 Kết quả đánh giá hiệu suất phân loại (Ananda Raharja et al., 2022)
Bài nghiên cứu (LIU et al., 2021) khám phá khả năng của mô hình Transformer
- một mô hình học sâu trong việc phát hiện tin nhắn rác Mô hình được kiểm định trên
bộ dữ liệu SMS Spam Collection v.1 và bộ dữ liệu UtkMl's Twitter Spam Detection Competition Kiến trúc chính của mô hình Transformer được sửa đổi cho việc phát hiện tin nhắn rác Để áp dụng mô hình Transformer vào nhiệm vụ phát hiện tin nhắn rác, hai sửa đổi chính được thực hiện đối với mô hình Transformer gốc, là Memory (bộ nhớ) và Linear layers and final activation function (các lớp tuyến tính và hàm kích hoạt cuối cùng) Các phần nhúng tin nhắn đầu vào và bộ nhớ tương ứng được mã hóa theo vị trí Sau đó, các vectơ tin nhắn sau khi xử lý, chúng sẽ được gửi tới các lớp mã hóa, nơi mà
sự tự chú ý được thực hiện Kết quả của các lớp mã hóa được chuyển đến các lớp giải
mã Trong lớp giải mã, tích chập đa đầu được thực hiện dựa trên đầu ra của các lớp mã
Trang 19hóa và bộ nhớ được xử lý Sau đó, các vector được giải mã được gửi đến một số lớp tuyến tính kết nối đầy đủ, sau đó sử dụng một hàm kích hoạt cuối cùng để phân loại So với tất cả mô hình được thử nghiệm của bài nghiên cứu thì mô hình Transformer đạt kết quả tối ưu về Accuracy, Precision, F1-Score với các giá trị lần lượt là 98.92%, 0.9451, 0.9613 Bên cạnh đó, mô hình đề xuất còn đạt được hiệu quả tốt trên bộ dữ liệu UtkMl's Twitter Spam Detection Competition, làm nổi bật tiềm năng trong việc điều chỉnh mô hình để phù hợp với các thách thức tương tự khác
Hình 5 Kiến trúc của mô hình Transformer (LIU et al., 2021)
Trang 20Hình 6 Kết quả trên tập dữ liệu SMS Spam Collection v.1 (LIU et al., 2021)
Hình 7 Kết quả trên tập dữ liệu UtkMl's Twitter Spam Detection Competition (LIU et
al., 2021)
(ALAA AL-KABBI et al., 2023) cũng là một bài nghiên cứu đề xuất một cách tiếp cận mới để phát hiện tin nhắn rác theo thời gian thực (real-time) bao gồm năm giai đoạn: tiền xử lý, trích xuất đặc trưng, hợp nhất đặc trưng, lựa chọn đặc trưng và phân loại Mô hình thiết kế để đồng thời các tính năng tin nhắn văn bản cục bộ, tạm thời và toàn cầu bằng cách sử dụng mô hình học sâu kết hợp để tăng cường biểu diễn đặc trưng Các nhà nghiên cứu đã kiểm định mô hình bằng cách thử nghiệm trên tập dữ liệu UCI,
so sánh nó với các thuật toán học máy, học sâu truyền thống như RF và BERT thông qua các phương pháp kiểm chứng chéo để đảm bảo tính chắc chắn cho kết quả Phương pháp cho thấy hiệu quả vượt trội, đạt độ chính xác tốt 99.56%, vượt trội so với các phương pháp khác Khả năng của phương pháp này trong việc phát hiện thư rác SMS đã
Trang 21chứng tỏ tiềm năng của nó trong việc triển khai trong thế giới thực, nơi nó có thể giảm thiểu đáng kể mức độ phổ biến và tác động của tin nhắn rác
Hình 8 So sánh hiệu suất của các phương pháp (ALAA AL-KABBI et al., 2023)
Bên cạnh việc nghiên cứu và xử lý các liên quan đến văn bản tiếng Anh Các nhà nghiên cứu cũng phát triển thêm bài toán phát hiện thư rác cho các ngôn ngữ đặc thù như: Trung Quốc, Indonesia, Hàn Quốc Cụ thể:
Bài báo (Lai et al., 2022) giới thiệu mô hình Semorph - Một mô hình Transformer được đào tạo sẵn nâng cao ngữ nghĩa hình thái cho phát hiện văn bản rác tiếng Trung
Mô hình tạo ra dành riêng cho việc phát hiện văn bản rác tiếng Trung Ngữ nghĩa hình thái nghĩa là phân tích cấu trúc và ý nghĩa của từng ký tự tiếng Trung, cùng với ngữ
Trang 22cảnh của chúng trong văn bản Mô hình Semorph được đào tạo trên một tập dữ liệu lớn
về văn bản tiếng Trung trước, đưa nó vào quá trình học và nhận ra các mẫu có thể cho thấy văn bản rác Hình 9 là cấu trúc tổng quan của Semorph khi thực hiện nhiệm vụ phát hiện văn bản rác Mô-đun biểu diễn chữ tượng hình bao gồm một chồng N lớp chập và một lớp được kết nối đầy đủ Một chồng K Transformers tạo thành mô-đun biểu diễn theo ngữ cảnh DP tùy chọn được thực hiện có chọn lọc trong giai đoạn tinh chỉnh
Hình 9 Cấu trúc tổng quan của Semorph khi thực hiện nhiệm vụ phát hiện văn bản
rác tiếng Trung (Lai et al., 2022)
Nhóm nghiên cứu của bài báo (Lai et al., 2022) đã sử dụng hai tập dữ liệu thực
tế để thực hiện nhiệm vụ phát hiện văn bản spam tiếng Trung Tập dữ liệu đầu tiên là từ một cộng đồng mạng mở, bao gồm các bình luận độc hại như tin nhắn khiêu dâm, quảng cáo và cờ bạc Tập này chứa 453.250 mẫu, với 124.629 mẫu spam và 328.621 mẫu bình thường, được chia thành tập huấn luyện và tập xác thực Một tập kiểm tra cũng được tạo
ra để đánh giá khả năng phát hiện spam trong môi trường thực tế, với phân bố tương tự như trong cộng đồng Tập dữ liệu thứ hai là từ cuộc thi học máy, chứa 11.358 tin nhắn
Trang 23spam Cuộc thi này nhằm nghiên cứu các thuật toán khôi phục tin nhắn SMS spam và cung cấp cả mẫu đối kháng thực tế và văn bản gốc Cả hai tập dữ liệu này được sử dụng
để đánh giá khả năng phát hiện spam Tập kiểm tra gồm các mẫu đối kháng được gọi là SMS-Adv, trong khi SMS-Ori đại diện cho tập còn lại S-Precision, S-Recall và S-F1 lần lượt biểu thị độ chính xác, mức thu hồi và chỉ số F1 được thực hiện trên lớp Spam Ori-Recall và Adv-Recall lần lượt là viết tắt của việc thu hồi được đánh giá trên SMS-Ori và SMS-Adv Kết quả cho thấy rất tích cực với Semorp có độ chính xác là 96% trên tập SMS-Ori và 95% trên tập SMS-Adv
Hình 10 Tập dữ liệu sử dụng cho bài nghiên cứu
Trang 24Hình 11 Kết quả đánh giá trên tập kiểm tra (Lai et al., 2022)
(Lee & Kang, 2019) là một bài nghiên cứu lọc tin nhắn rác tiếng Hàn bằng phương pháp học máy Support vector machine (SVM) phổ biến nhất cho phân lớp nhị phân Các nhà nghiên cứu khám phá thêm một phương pháp nhúng từ cho việc xây dựng một vectơ đặc trưng và phương pháp học sâu cho phân lớp nhị phân Đó là CBOW được
sử dụng như một phương pháp nhúng từ (word embedding) và Feedforward Neural Network (FNN) được áp dụng để phân lớp tin nhắn SMS thành tin nhắn thường (ham) hoặc tin nhắn rác (spam) Kết quả thử nghiệm chỉ ra rằng hiệu suất của phương pháp học sâu FNN tốt hơn phương pháp học máy truyền thống của SVM-light trong phân lớp nhị phân Nhúng từ (word embedding) là phương pháp phổ biến nhất để biểu diễn các
từ vào không gian vector liên tục Các tác giả đã sử dụng mô hình CBOW (Continuous Bag of Words) của phương pháp nhúng từ để biểu diễn các từ dưới dạng vector Để tạo
Trang 25ra một vector từ, chúng họ đã sử dụng CBOW dự đoán một từ mục tiêu từ văn bản bên trái và bên phải của từ mục tiêu Sau đó, tạo ra một vector câu bằng cách tổng hợp các vector từ tạo thành một câu Sau khi tạo ra một vector câu, nó được chuyển đến FNN Trong hệ thống mạng nơ-ron, FNN đã được áp dụng phổ biển cho các nhiệm vụ phân loại FNN là một mạng kết nối đầy đủ giữa một lớp và lớp tiếp theo với các trọng số được học thông qua lan truyền ngược FNN của họ sử dụng hàm sigmoid làm hàm kích hoạt và cross entropy làm hàm chi phí cho phân lớp nhị phân và sau đó trong quá trình làm cho Feedforward neural network deep, họ đo hiệu suất của việc lọc tin nhắn rác
Hình 12 Quy trình lọc tin nhắn rác của bài toán (Lee & Kang, 2019)
Trang 26Hình 13 Cách lọc thư rác của phương pháp FNN (Lee & Kang, 2019)
Bộ dữ liệu sử dụng cho bài toán được thu thập từ các tin nhắn SMS thực tế của người dùng Như một bước chuẩn bị trước cho máy học, mỗi tin nhắn SMS được biến đổi thành những vectơ đặc trưng thông qua công nghệ nhúng từ Kết quả của các vector
từ dựa trên tổng số 109.993 câu, tức là tổng của dữ liệu huấn luyện và dữ liệu kiểm tra Kết quả cho thấy độ chính xác của việc lọc SMS theo 2 phương pháp đều có độ chính xác cao FNN có độ chính xác cao hơn so với độ chính xác của phương pháp phân lớp nhị phân SVM light Ngoài ra, họ xác nhận độ chính xác của việc phân lớp trên FNN tăng theo số lớp Tuy nhiên, khi số lớp của mạng nơ-ron tăng lên, độ chính xác có thể không tăng tỷ lệ thuận
Hình 14 Lượng dữ liệu huấn luyện và kiểm tra cho bài toán (Lee & Kang, 2019)
Trang 27Hình 15 Độ chính xác của phương pháp SVM (Lee & Kang, 2019)
Hình 16 Độ chính xác của phương pháp FNN (Lee & Kang, 2019)
(Vu Minh et al., 2022) là bài nghiên cứu phát hiện tin nhắn rác tiếng việt với phương pháp học sâu và ngôn ngữ tiền huấn luyện Bài viết đề xuất một mô hình kết hợp giữa mô Deep learning neural network (DNN) và kỹ thuật ngôn ngữ đã được tiền huấn luyện - PhoBERT PhoBERT là một mô hình ngôn ngữ tiếng Việt dựa trên kiến trúc mạng nơ-ron BERT (Bidirectional Encoder Representations from Transformers) PhoBERT được tinh chỉnh và huấn luyện trên dữ liệu tiếng Việt, với mục tiêu hiểu và
xử lý ngôn ngữ tự nhiên tiếng Việt PhoBERT giúp cho các ứng dụng xử lý ngôn ngữ tự nhiên tiếng Việt có thể thực hiện các nhiệm vụ như phân loại văn bản, dịch máy, tóm tắt văn bản, hay tìm kiếm thông tin dễ dàng và hiệu quả hơn Được xây dựng trên nền tảng BERT, PhoBERT có khả năng hiểu ngữ cảnh hai chiều (bidirectional context) trong các câu văn, giúp nó trở thành một công cụ mạnh mẽ cho các nhiệm vụ NLP trong tiếng Việt, bao gồm cả việc xử lý văn bản, phân loại, và dự đoán Tập dữ liệu được sử dụng trong nghiên cứu này bao gồm 5113 tin nhắn, trong đó có 52% là tin nhắn rác và 48%
là tin nhắn hợp lệ Dữ liệu này được thu thập từ các người dùng cá nhân trên nhiều hệ
Trang 28điều hành và thiết bị khác nhau, tập trung vào các tin nhắn được gửi qua mạng viễn thông để bảo tồn các đặc điểm của tin nhắn SMS như dữ liệu siêu, giới hạn độ dài tin nhắn… Tất cả các tin nhắn đều bằng tiếng Việt để tối đa hóa hiệu suất của mô hình đề xuất Dữ liệu gốc đã được thu thập và chuyển đổi thành dạng bảng để có thể được xử lý
dễ dàng với thư viện Pandas Các nhà nghiên cứu quan tâm đến việc tiền xử lý dữ liệu
Họ tiến hành loại bỏ dữ liệu dư thừa trong tập dữ liệu Dữ liệu dư thừa không ảnh hưởng đến việc phân loại tin nhắn văn bản Và nếu giữ chúng khi áp dụng mô hình, điều này
sẽ dẫn đến kết quả xử lý kém Đối với dữ liệu tin nhắn văn bản SMS, dữ liệu nhiễu bao gồm các đường dẫn, cụm từ không cần thiết, ký tự không mang ý nghĩa và số điện thoại Việc loại bỏ được thực hiện bằng bộ lọc biểu thức chính quy
Hình 17 Cấu trúc tập dữ liệu sử dụng cho mô hình (Vu Minh et al., 2022)
Sau khi tiền xử lý dữ liệu gốc, họ đưa văn bản đã được xử lý vào mô hình PhoBERT, sau đó mô hình sẽ tạo ra một bộ nhúng từ có ngữ cảnh cho dữ liệu huấn luyện
Trang 29Hình 18 Mô hình phát hiện tin nhắn rác tiếng Việt (Vu Minh et al., 2022)
Để chứng minh hiệu quả của các nhúng, một mạng nơ-ron học sâu đã được tạo
ra Mô hình mạng nơ-ron học sâu có 04 lớp ẩn với các tham số của các thành phần trong lớp ẩn lần lượt là 256-256-128-10
Hình 19 Cấu trúc của mô hình DNN (Vu Minh et al., 2022)
Trang 30Hình 20 Kết quả mô hình (Vu Minh et al., 2022)
Tận dụng đầy đủ dữ liệu tiền huấn luyện tiếng Việt, mô hình được đề xuất đã đạt được độ chính xác tốt là 99,53% trong việc phát hiện tin nhắn rác tiếng Việt
Trong nghiên cứu này, một phương pháp phát hiện tin nhắn rác qua SMS tiếng Việt với mô hình mạng nơ-ron học sâu đã được đề xuất Điểm nổi bật của mô hình là ứng dụng kỹ thuật ngôn ngữ được tiền huấn luyện - PhoBERT cho việc tiền xử lý dữ liệu (dành cho ngôn ngữ tiếng Việt) Mô hình được đề xuất đã đạt được độ chính xác tốt
là 99,53% trong việc phát hiện tin nhắn rác tiếng Việt Nhóm tác giả hứa hẹn trong tương lai, họ sẽ không chỉ tập trung vào tin nhắn SMS mà còn các loại tin rác khác như tin nhắn ứng dụng OTT, mạng xã hội và đánh giá, Về cải thiện mô hình, tác giả đang dự định thực hiện thêm các thí nghiệm với các tham số khác nhau để tối ưu hóa mô hình
1.2.2 Nhận định chung
Qua kết quả khảo sát của khóa luận có thể thấy rằng các giải pháp đã đề xuất hiện nay có độ chính xác cao Ví dụ như, mô hình được áp dụng trong bài nghiên cứu (Ananda Raharja et al., 2022)có độ chính xác lên tới 99% hay một bài nghiên cứu khác (ALAA
AL-KABBI et al., 2023) đề xuất một cách tiếp cận mới để phát hiện tin nhắn rác đạt
được kết quả vượt trội với độ chính xác tốt lên tới 99,56% Điều này cho thấy rằng công nghệ đã có sự tiến bộ đáng kể trong việc giải quyết vấn đề này
Tuy nhiên như đã đề cập, tin nhắn lừa đảo khiến người Mỹ thiệt hại hơn 326 triệu
USD (People Are Losing More Money to Scammers than Ever before Here’s How to Keep Yourself Safe., 2023) Bài báo cáo chi tiết về lừa đảo qua điện thoại của Robokiller
Trang 31năm 2021 (The RoboKiller Report 2021 PHONE SCAM INSIGHT, 2021) có tới
3,071,087,772 vụ lừa lừa đảo thông qua tin nhắn điện thoại di động thuộc lĩnh vực Ngân hàng, đứng thứ 3 về số lượng các vụ lừa đảo trên tất cả các lĩnh vực Và báo cáo lừa đảo
và thư rác tại Hoa Kỳ của Truecaller Insights năm 2022 (Truecaller Insights 2022 U.S Spam & Scam Report, 2024) đã thống kê chỉ có khoảng 65% người Mỹ cho biết họ sẽ
xóa tin nhắn khi nhận được từ số lạ
Có thể nhận định rằng tình hình thực tế của vấn nạn tin nhắn rác SMS vẫn là một vấn đề vô cùng lo ngại đối với người dùng di động với số lượng nạn nhân và mức tổn hại đáng kể Việc này có đến từ một số nguyên nhân sau đây:
- Thứ nhất là mô hình chưa chính xác: Mô hình phát hiện tin nhắn rác chưa đạt được độ chính xác mong muốn Hoặc đã có sự phát triển của các thuật toán và kỹ thuật phân loại, nhưng vẫn còn tồn tại các trường hợp mà các tin nhắn rác vẫn được gửi đi mà không bị phát hiện
- Thứ hai là giải pháp chưa được tích hợp: Mặc dù đã có nhiều giải pháp được đề xuất để ngăn chặn tin nhắn rác, nhưng việc tích hợp chúng vào hệ thống vẫn chưa được thực hiện một cách hiệu quả Có thể do sự thiếu hụt về tài nguyên, kỹ năng
kỹ thuật, hoặc yếu tố khác, các giải pháp này chưa thể triển khai rộng rãi để bảo
vệ người dùng
- Thứ ba, do người dùng chưa ý thức được mức độ nguy hại của tin nhắn rác: Sự thiếu hiểu biết và ý thức của người dùng về nguy cơ của tin nhắn rác Nhiều người vẫn chưa nhận ra rằng việc nhận và phản hồi tin nhắn rác có thể đưa họ vào tình trạng rủi ro, từ việc bị lừa đảo thông tin cá nhân đến các rủi ro liên quan đến tài chính và ngân hàng
- Cuối cùng, do “spammer” - những kẻ gửi tin nhắn rác có khả năng dễ dàng tạo
ra các nguồn tin nhắn mới thông qua việc thay đổi nội dung hoặc cấu trúc của tin nhắn SMS để tránh bị chặn, do đó gây ra các mối nguy tiềm ẩn cho người dùng Tính đến nay, đã có nhiều quốc gia cũng như các tổ chức đã có những giải pháp
đề xuất cho bài toán phát hiện tin nhắn rác SMS Các nhà mạng cũng đã rất tích cực trong việc ngăn chặn tin nhắn rác, thể hiện thông qua việc triển khai các biện pháp tăng
Trang 32cường bảo mật và lọc tin nhắn rác Do đó, có thể kết luận rằng vấn đề còn tồn đọng chính là vấn đề của người dùng chưa ý thức được mức độ nguy hại của tin nhắn rác đi cùng với sự tinh vi của những kẻ phát tán tin nhắn rác Để giải quyết vấn đề này, cần có những giải pháp nhằm nâng cao mức độ cảnh báo rủi ro cho dịch vụ tin nhắn di động SMS cho người dùng
Vì vậy, khóa luận này sẽ đóng góp vào việc xây dựng mô hình phát hiện tin nhắn rác SMS bằng việc tích hợp kho dữ liệu tin nhắn tiếng Anh từ nhiều nguồn khác nhau, cùng với sự đa dạng về khu vực và ngữ cảnh Qua việc sử dụng dữ liệu đa dạng này, mô hình sẽ được trang bị những kiến thức phong phú về cách mà tin nhắn rác được spammer tạo ra từ nhiều môi trường khác nhau Từ đó, giúp mô hình tăng khả năng nhận biết và
xử lý tin nhắn rác từ các nguồn đa dạng một cách hiệu quả hơn, đồng thời nâng cao mức
độ cảnh báo rủi ro cho dịch vụ tin nhắn di động SMS
1.3 Kết luận chương 1
Chương 1 đã giới thiệu tổng quan về phân loại văn bản và bài toán phát hiện tin nhắn rác SMS Trên thế giới hay tại Việt Nam cũng có một số bài nghiên cứu về bài toán phân loại thư, tin nhắn rác Tuy nhiên chưa có nghiên cứu nào tập trung vào việc phát hiện tin nhắn rác SMS dựa trên bộ dữ liệu được tích hợp đa dạng từ nhiều nguồn, nhiều khu vực khác nhau Cuối cùng từ những nghiên cứu trên khóa luận này sẽ trình bày về việc xây dựng mô hình phát hiện tin nhắn rác sử dụng bộ dữ liệu phức hợp Với chương 2, khóa luận sẽ trình bày về cơ sở kỹ thuật cho bài toán trên
Trang 33CHƯƠNG II: CƠ SỞ KỸ THUẬT CHO BÀI TỐN PHÂN LỚP VĂN BẢN, TRIỂN KHAI CỤ THỂ CHO BÀI TỐN PHÁT HIỆN TIN NHẮN RÁC SMS
Chương 2 trình bày về cơ sở kỹ thuật cho bài tốn phân lớp văn bản Khĩa luận quyết định lựa chọn kỹ thuật Nạve Bayes là cơ sở kỹ thuật để xây dựng mơ hình phát hiện tin nhắn rác sử dụng bộ dữ liệu phức hợp
2.1 Cơ sở kỹ thuật cho bài tốn
Như đã đề cập phía trên, đối với bài tốn phân loại văn bản nĩi chung và bài tốn phân loại tin nhắn rác nĩi riêng, các kỹ thuật học máy thường được sử dụng vì chúng đem lại hiệu quả cao nhất Trong nghiên cứu này, khĩa luận lựa chọn kỹ thuật Nạve
Bayes bởi sự đơn giản, dễ hiểu, dễ triển khai và tính hiệu quả cao đối với các bài tốn phân loại văn bản đã thu hút sự quan tâm của nhiều nghiên cứu trong lĩnh vực này Do
đĩ, nghiên cứu này quyết định lựa chọn kỹ thuật Nạve Bayes làm cơ sở cho bài tốn phân loại văn bản, đặc biệt là trong việc phát hiện và loại bỏ các tin nhắn rác dựa trên
bộ dữ liệu tin nhắn SMS tiếng anh được tích hợp đa dạng từ nhiều nguồn, nhiều khu vực khác nhau
2.1.1 Định lý Bayes
Nạve Bayes là kỹ thuật phân lớp dự báo mạnh mẽ, dễ hiểu và cĩ tốc độ huấn luyện nhanh Dựa trên định lý Bayes về xác suất cĩ cĩ điều kiện
Định lý Bayes cho phép tính xác suất xảy ra của một biến cố A khi biết biến cố B
đã xảy ra Xác suất này được ký hiệu là P(A|B)