Chương 2. Các kỹ thuật lọc thư rác thư rác
2.2. Các kỹ thuật lọc thư rác
2.2.1. Phương thức trích xuất thư điện tử
Tính năng trích xuất thư điện tử là một phần thiết yếu trong hệ thống phát hiện thư rác. Độ chính xác, tính phân loại và khả năng thích ứng của cách tiếp cận trích xuất có thể ảnh hưởng trực tiếp đến kết quả và hiệu suất phân loại. Theo báo cáo của Hiệp hội Internet Trung Quốc [12], dạng thư rác chủ yếu được chia thành ba danh mục: văn bản và hình ảnh, chỉ văn bản và chỉ hình ảnh. Phần này đánh giá các phương pháp trích xuất tính năng cổ điển dựa trên văn bản, hình ảnh và hành vi.
2.2.1.1. Lựa chọn thuật ngữ
• Lấy thông tin (IG)
Trong lý thuyết thông tin, entropy còn được gọi là khoảng cách Kullback-Leibler. Nó có thể đo khoảng cách của tổng của hai xác suất. Trong các nghiên cứu về lọc thư rác, nó được sử dụng để đo lường mức độ “tốt” của các thuật ngữ hoặc tính năng [12]. Theo cách thức này, khi biết một cụm từ
nhất định có xuất hiện trong thư điện tử hay không, chúng ta có thể tính toán lượng thông tin về các loại thư điện tử nhận được.
=
} ,
{ , ( ) ( )
) , log (
) , ( )
(
l
s C i i
C
C T t t
i P T P C
C T C P
T P t
I 1
trong đó C đại diện cho loại thư, cs và cl chỉ ra rằng các loại thư là thư rác và thư hợp lệ, ti là thuật ngữ xuất hiện trong thư điện tử, trong khi ti hiển thị thuật ngữ không có trong thư điện tử.
Theo công thức này, entropy thông tin của mỗi số hạng sẽ được tính toán và số hạng lớn hơn sẽ được chọn để bước vào giai đoạn tiếp theo.
• Phương sai tần số thuật ngữ (TFV)
Koprinska và cộng sự phát triển phương pháp phương sai tần số thuật ngữ (TFV) để chọn các cụm từ có phương sai tần suất lớn [12]. Họ nghĩ rằng các thuật ngữ có phương sai tần suất thuật ngữ lớn chứa nhiều thông tin hơn.
Theo chiến lược này, những cụm từ có xu hướng xuất hiện trong cùng một loại thư điện tử (thư rác hoặc thư điện tử thông thường) sẽ được chọn trong khi những cụm từ có tần suất cụm từ tương đương trong hai loại sẽ bị loại bỏ.
Trong nghiên cứu phát hiện thư rác, phương sai tần suất thuật ngữ được xác định như sau:
( ) ( )
−
=
l
s C
C C
i f i f i
t
T T t C T t
,
2
)]
( ,
[ 2
trong đó Tf (ti, C) là tần suất xuất hiện của thuật ngữ ti,
𝑇𝑓𝜇(𝑡𝑖)là tần suất xuất hiện trung bình của thuật ngữ ti trong cả hai loại thư điện tử.
Nghiên cứu [15] cho thấy hiệu suất của TFV tốt hơn IG trong hầu hết các trường hợp. Chọn 100 thuật ngữ đầu của TFV và IG cho thấy rằng các thuật ngữ này có hai đặc điểm: 1) thường xuyên xuất hiện trong các thư điện tử liên quan đến ngôn ngữ học; 2) thường xuyên xuất hiện trong thư rác nhưng hiếm khi xuất hiện trong các thư điện tử hợp pháp.
• Tần suất tài liệu (DF)
Tần suất tài liệu là tổng tần suất của một thuật ngữ cụ thể trong toàn bộ tập huấn luyện [12]. Theo chiến lược này, thuật ngữ có tần suất tài liệu lớn hơn ngưỡng sẽ được chọn. Công thức của DF như sau,
D (ti) = | {mj | mj∈ M, và ti∈ mj} | 3 trong đó M đại diện cho toàn bộ tập huấn luyện,
mj đại diện cho một thư điện tử duy nhất trong M, ti là tài liệu cần nghiên cứu.
DF chỉ ra rằng các thuật ngữ tần suất thấp có ít thông tin, vì vậy sẽ không có gì khác biệt khi các thuật ngữ này bị loại bỏ. Nghiên cứu [15] cho thấy rằng khi loại bỏ 90% số hạng tần số thấp, hiệu suất của DF và IG là tương tự. Ưu điểm của DF là độ phức tạp tính toán thấp và tăng tỷ lệ tuyến tính.
2.2.1.2. Trích xuất đặc tính văn bản
Việc trích xuất đặc tính thư điện tử dựa trên văn bản thường bao gồm hai bước: 1) Lựa chọn cụm từ. Dựa trên tầm quan trọng, các thuật ngữ đặc biệt được chọn để bước vào giai đoạn tiếp theo. 2) Trích xuất tính năng và hiển thị.
Các tính năng của thư điện tử được trích xuất và hiển thị, được thể hiện trong một thể thống nhất.
• Túi từ
Cách tiếp cận này còn được gọi là mô hình không gian vectơ, là một trong những các phương pháp khai thác tính năng được sử dụng rộng rãi trong phát hiện thư rác [12]. Nó chuyển đổi mỗi thư điện tử thành một vectơ đặc trưng n chiều <x1, x2, ..., xn> và quan sát xem thuật ngữ có xuất hiện trong thư điện tử hay không. Trong cách tiếp cận này, giá trị xi của Xi là chức năng của thuật ngữ ti . Thông thường có hai loại đại diện cho xi : kiểu boolean và kiểu tần số [12]. Trong loại boolean, xi được gán ở chế độ: nếu ti xảy ra trong thư điện tử, thì xi là 1 và ngược lại, xi là 0. Trong loại tần số, xi là tần suất của thuật ngữ ti . Trong các thí nghiệm của Schneider, hiệu suất của hai loại biểu diễn là tương tự [12].
• Băm đa thức nhị phân thưa thớt (SBPH)
Phương pháp này sử dụng cửa sổ trượt để trích xuất các tính năng khác nhau từ thư điện tử [12]. Cửa sổ trượt có độ dài N-thuật ngữ sẽ duyệt thư điện tử và từng bước di chuyển tuần tự. Trong mỗi lần dịch chuyển cửa sổ sẽ trích xuất 2N-1 đặc trưng: các thuật ngữ mới trong cửa sổ được bảo lưu và các thuật ngữ khác được bảo lưu hoặc xóa. Và có 2N-1 đặc trưng cho N-1 thuật ngữ trong cửa sổ, vì vậy chúng tôi có thể có được 2N-1 tính năng. Sau đó, mỗi tính năng được chuyển đổi thành một giá trị băm cụ thể. Sau khi trích xuất các tính năng, phương pháp sẽ chọn các thuật ngữ bằng các phương pháp lựa chọn thuật ngữ trước đây, có độ chính xác cao nhưng cũng phức tạp về mặt tính toán.
• Bigrams thưa thớt trực giao (OSB)
Để giảm bớt sự dư thừa và phức tạp của SBPH, Siefkes đề xuất thuật toán bigrams thưa thớt trực giao (viết tắt là OSB) để trích xuất tập đặc tính nhỏ hơn, trong đó sử dụng cửa sổ trượt dài hạn N [12]. Điều khác biệt so với SPBH là rằng chỉ những thuật ngữ phổ biến mới được OSB trích xuất. Đối với mỗi cửa sổ, thuật ngữ chung sẽ được bảo lưu và chọn N-1 thuật ngữ để phù hợp với nó. Do đó, mỗi cửa sổ có thể tạo N-1 cặp thuật ngữ để phản ánh N-1 đặc tính.
So với SBPH, nó có thể giảm số lượng tính năng. Nghiên cứu cho thấy hiệu suất của OSB tốt hơn SBPH [12].
• Hệ thống miễn dịch nhân tạo (AIS)
Oda và cộng sự đã thiết kế một hệ thống miễn dịch chống thư rác, sử dụng biểu thức chính quy để tạo ra kháng thể (máy dò) [12]. Ứng dụng biểu thức chính quy làm cho mọi kháng thể khớp với kháng nguyên lớn (spam), có thể giảm số lượng các đặc tính một cách hiệu quả. Hệ thống miễn dịch sinh học (BIS) đánh trọng số cho mỗi kháng thể. Khi bắt đầu thuật toán, trọng số của kháng thể được khởi tạo với giá trị mặc định. Sau một thời gian chạy, kháng thể phù hợp với thư rác hơn sẽ tăng trọng số lên và những kháng thể phù hợp với thư hợp lệ sẽ giảm trọng số. Khi trọng số của kháng thể nhỏ hơn giá trị ngưỡng, kháng thể sẽ bị loại bỏ khỏi mô hình.
2.2.1.3. Trích xuất thư điện tử có hình ảnh
Bên cạnh nội dung văn bản, thư điện tử đôi khi chứa cả hình ảnh. Thông thường thư điện tử, thường có hình ảnh đính kèm là ảnh đời thường về chân dung, phong cảnh, kiến trúc và các nội dung khác để giao tiếp hàng ngày trong cuộc sống và công việc. Trong khi thư rác, hình ảnh luôn chứa thông tin văn bản cho mục đích của quảng cáo và tiếp thị [12]. Do đó, có sự khác biệt rõ ràng giữa hình ảnh trên thư rác và hình ảnh bình thường về thuộc tính hình ảnh, màu sắc, văn bản, nền, v.v. và một số tính năng dựa trên hình ảnh. Các phương pháp tiếp cận trích xuất hình ảnh đã được đề xuất dựa theo sự khác biệt đáng kể giữa hai loại ảnh này.
• Thuộc tính của hình ảnh
Vì thư rác được gửi với số lượng lớn, những người gửi thư rác thường kiểm soát kích cỡ của hình ảnh để giảm băng thông mạng và tăng hiệu quả truyền tải. Điều này làm cho các thuộc tính của một hình ảnh thư rác khác đáng kể khác với hình ảnh bình thường. Nghiên cứu [16] trích xuất thuộc tính thông tin về hình ảnh dưới dạng vectơ đặc trưng, bao gồm kích thước lưu trữ, độ dài hình ảnh, chiều rộng hình ảnh, các định dạng nén hình ảnh và các thông tin khác. Nghiên cứu này phân tích và so sánh hai phương pháp phát hiện hình ảnh thư rác. Đầu tiên, họ xem xét phân tích thành phần chính (PCA), trong đó họ xác định các eigenvectơ tương ứng với một tập hợp các hình ảnh của thư rác và tính toán điểm bằng cách chiếu hình ảnh lên không gian eigens. Cách tiếp cận thứ hai tập trung vào việc trích xuất một tập hợp chung của các tính năng hình ảnh và lựa chọn một tập hợp con tối ưu bằng cách sử dụng máy vectơ hỗ trợ (SVM). Cả hai chiến lược phát hiện này đều cung cấp độ chính xác cao với độ phức tạp tính toán thấp. Hơn nữa, nghiên cứu phát triển một bộ dữ liệu hình ảnh spam mới chưa bị phát hiện bằng cách sử dụng phương pháp PCA hoặc SVM. Bộ dữ liệu mới này sẽ tỏ ra có giá trị trong việc cải thiện khả năng phát hiện spam hình ảnh. Tương tự, Uemura et al. sử dụng tên hình ảnh, kích thước lưu trữ làm các tính năng và đồng thời bổ sung thông tin tỷ lệ nén hình ảnh [12]. Họ chỉ ra rằng hình ảnh spam thường có tỷ lệ nén cao hơn của một hình ảnh bình thường vì nội dung của một hình ảnh spam tương đối đơn giản.
Nghiên cứu cũng chỉ ra rằng tỷ lệ khung hình của một hình ảnh spam là khá
khác với hình ảnh bình thường [12]. Có một số lượng lớn các biểu ngữ giữa các hình ảnh spam và sự khác biệt giữa chiều dài và chiều rộng của một hình ảnh biểu ngữ là hiển nhiên.
• Tính năng màu sắc và kết cấu của hình ảnh
Phân tích [12] chỉ ra rằng hình ảnh bình thường có màu sắc khác nhau đáng kể trong khi đó có sự khác biệt đáng kể giữa các thư rác hình ảnh và hình ảnh bình thường về khía cạnh phân bố màu sắc, cường độ màu,.. Sự giống nhau giữa các vùng của một hình ảnh thư hợp lệ khá cao, trong khi các ảnh thư rác có màu sắc không đồng nhất. Độ bão hòa màu của ảnh thư rác cũng khác với ảnh bình thường. Hình ảnh được chia thành nhiều danh mục bằng cách trích xuất các đặc điểm màu này, trong đó năm loại hình ảnh thư rác thường thấy bao gồm hình ảnh tổng hợp, hình nền phức tạp, v.v., và ba loại hình ảnh bình thường, cụ thể là ảnh chụp, bản đồ và truyện tranh. Nghiên cứu cũng chỉ ra rằng sự phân bố màu sắc của hình ảnh thư rác không mượt như hình ảnh bình thường, bởi vì các hình ảnh trong thư rác nói chung là tổng hợp và chứa các vật rõ ràng và sắc nét. Vì số lượng thư điện tử rác được gửi là rất lớn, các hình ảnh thư rác được gửi trong cùng một đợt nói chung có rất nhiều điểm tương đồng. Trong giai đoạn huấn luyện, khoảng cách tương tự giữa hình ảnh thư rác và hình ảnh bình thường được tính toán và khoảng cách tương tự tối thiểu được sử dụng để tạo thành giá trị ngưỡng. Trong giai đoạn phân loại, sẽ tính ra điểm tương đồng giữa vectơ đặc trưng của hình ảnh mới. Vectơ trong thư viện được tính toán và tạo danh mục hình ảnh mới thông qua trọng số.
• Tính năng cạnh ký tự
Trên cơ sở trích xuất cạnh của ký tự theo chiều dọc, hình ảnh được chia thành vùng văn bản và vùng không phải văn bản bằng cách tính độ giống nhau của cạnh ký tự trong mỗi vùng và hợp nhất các vùng tương tự [12]. Sau sự phân chia, các tính năng của mỗi hình ảnh được xây dựng bằng cách tính toán kích thước của văn bản vùng trong mỗi hình ảnh cũng như độ bão hòa màu và độ đồng nhất màu ở các vùng văn bản và vùng không phải văn bản tương ứng.
Cuối cùng, vectơ đặc trưng của một thư điện tử đạt được bằng cách tính tổng trọng số các tính năng liên quan của tất cả các hình ảnh có trong thư điện tử
tùy theo diện tích của mỗi hình ảnh sử dụng máy vectơ hỗ trợ (SVM) để phân loại. Ngoài ra, tuật toán tăng cường cũng được sử dụng để phát hiện mẫu bằng cách huấn luyện về mẫu tính năng để phát hiện văn bản các khu vực trong hình ảnh [12].
• Các tính năng dựa trên OCR
Để tránh bộ lọc thư rác, những người gửi thư rác thường gửi hình ảnh thay vì văn bản. Các bộ lọc thư rác hình ảnh truyền thống có những điểm yếu trong việc quét tài liệu và ảnh. Tài liệu [17] đề xuất trích xuất thông tin văn bản trong hình ảnh bằng cách sử dụng Quang học nhận dạng ký tự (OCR) và thông tin văn bản được xử lý thêm bằng cách áp dụng các phương pháp tiếp cận dựa trên văn bản. Xem xét tính toán cao độ phức tạp của công nghệ OCR, họ cũng chỉ ra rằng phương pháp này nên kết hợp với những phương pháp lọc khác và chỉ áp dụng cho những thư điện tử khó phân loại. Do đó, trong nghiên cứu [17] đã đề xuất phân loại ảnh thư theo chữ cái và hình ảnh [18].
Trích xuất tính năng dựa trên OCR chỉ có thể đạt được hiệu suất tốt khi không có tạp âm trong thư rác hình ảnh [12]. Để chống lại phương pháp phát hiện dựa trên OCR, những kẻ gửi thư rác thêm nhiễu thông tin vào các hình ảnh spam, chẳng hạn như phông chữ hỗn hợp, nền mờ, biến dạng văn bản, v.v.
Tuy nhiên, những thông tin nhiễu này đã trở thành tính năng phân biệt ảnh trong thư rác với ảnh bình thường. Phân tích nguyên tắc chính của các kỹ thuật làm mờ đối với hình ảnh spam cũng như tác động chính của các kỹ thuật này đối với OCR, và hơn thế nữa, có thể trích xuất các tính năng nhiễu bằng cách phát hiện bất thường trong các bước xử lý OCR. Một phương pháp được đề xuất để phát hiện nhiễu trong đó hình ảnh được chuyển đổi thành một hình ảnh nhị phân và độ phức tạp của hình ảnh hiển thị được tính toán [16] [19]. Vì độ phức tạp của hình ảnh bình thường nằm trong một phạm vi có giá trị khác với của hình ảnh thư rác có nhiễu, họ có thể trích xuất các đặc điểm nhiễu của ký tự cạnh và nền bằng cách sử dụng số liệu này [17].
2.2.1.4. Trích xuất thư điện tử theo hành vi
Có sự khác biệt đáng kể giữa thư rác và thư điện tử bình thường không chỉ trên nội dung mà còn về mục đích gửi, phương thức truyền tải, phạm vi
tương tác, v.v. Ngoài ra, những người gửi spam thường thực hiện các biện pháp nhất định để tránh bộ lọc thư rác. Do đó, có thể phân biệt thư rác và thư điện tử bình thường bằng cách trích xuất các tính năng hành vi trong quá trình gửi của thư điện tử.
• Đặc điểm hành vi của người gửi thư rác
Trong quá trình gửi, những kẻ gửi thư rác thường giả mạo thông tin tiêu đề của thư điện tử để che giấu danh tính của họ. Điều này làm cho thông tin tiêu đề của thư rác có sự khác biệt đáng kể so với thông tin của thư điện tử thông thường và các đặc điểm hành vi tương ứng của thư giả mạo có thể được trích xuất bằng cách phân tích thông tin tiêu đề của thư điện tử.
Các tính năng hành vi đã được trích xuất để phát hiện thư rác bằng cách kiểm tra sự bất thường của mục nhập đơn lẻ được phân biệt và kiểm tra các trường thông tin trong thư điện tử header như “From”, “To”, “Delivered-To”,
“Return Path”, “Date” và các thông tin khác xem có bất thường hay không, ví dụ như độ chính xác của định dạng, liệu nó có trống không, thời gian có hợp lý không [12] [20]. Thông qua việc phân tích các đặc điểm của thư điện tử, người ta thấy rằng có nhiều khả năng những kẻ gửi thư rác xuất hiện trong nhiều hơn một nhóm để gửi lại thư rác. Nghiên cứu phân tích các liên kết URL trong thư điện tử và cụm thư điện tử bằng cách theo dõi máy chủ của các trang web được liên kết [20]. Họ chỉ ra có một máy chủ thường cung cấp dịch vụ cho một số trang spam được liên kết, cho phép gửi thư điện tử [12].
• Các đặc điểm hành vi mạng của thư rác
Hành vi, đặc điểm trên mạng của thư rác và thư điện tử thông thường khá khác nhau, và các nghiên cứu đã trích xuất các đặc điểm hành vi liên quan đến địa chỉ IP, phân tích thông tin đăng nhập của hộp thư và những thay đổi về IP đăng nhập và kết luận rằng hầu hết các thư điện tử được gửi từ địa chỉ IP động là thư rác, nghiên cứu cho thấy một nửa số thư rác trong Hotmail được gửi từ các địa chỉ IP động [12]. Ngoài ra, họ phát hiện ra rằng dữ liệu lịch sử trong danh sách đen có giá trị tham chiếu tốt trong dự báo thư rác. Họ đề xuất một phương pháp đánh giá theo không gian-thời gian bằng cách kết hợp các