Ứng dụng SVM để phõn loại email và spam

Một phần của tài liệu Một số kỹ thuật hiện đại trong phân tích thống kê nhiều chiều (Trang 59)

2 Support Vector Machine

3.2 Ứng dụng SVM để phõn loại email và spam

Sự phỏt triển của cỏc dịch vụ thụng tin trờn Internet và nhu cầu trao đổi thụng tin làm cho hệ thống thư điện tử phỏt triển mạnh. Song song với sự phỏt triển đú, tỡnh trạng thư rỏc ngày càng gõy nhiều thiệt hại cho cộng đồng người sử dụng như: hao phớ tài nguyờn mạng mỏy tớnh, làm mất thời gian của người dựng và thậm chớ cú thể phỏt tỏn những thụng tin văn húa độc hại. Vỡ vậy, vấn đề xõy dựng cỏc giải phỏp tự động lọc và chống thư rỏc trở thành nhu cầu khụng thể thiếu. Hệ thống lọc thư rỏc dựa trờn cỏc phương phỏp phõn loại văn bản, tức là gỏn văn bản vào một số nhúm văn bản đó được biết trước.

Đối với bài toỏn lọc thư rỏc, đầu vào sẽ là cỏc bức thư điện tử gửi trờn mạng Internet. Ở mức độ đơn giản, chỳng ta thấy rằng sẽ cú hai nhúm văn bản là thư rỏc (spam mail) và thư sạch (email). Việc xỏc định nhúm thư rỏc thường khụng cú một định nghĩa chớnh xỏc, nú thay đổi theo từng đối tượng và hoàn cảnh. Theo định nghĩa thụng thường, đú là cỏc thư cú nội dung văn húa độc hại, cỏc thư quảng cỏo được phỏn tỏn với số lượng lớn, cỏc thư tuyờn truyền với mục đớch xấu,. . . Vỡ vậy, một hệ thống phõn loại tự động cú khả năng học để thớch nghi là cần thiết cho cỏc hệ thống thư điện tử.

Phương phỏp sử dụng kỹ thuật SVM khỏ hiệu quả trong việc phõn loại thư rỏc, vỡ về bản chất nú vẫn là phương phỏp sử dụng thống kờ nờn cú những ưu điểm nhất định.

Tập dữ liệu chỳng ta sử dụng sẽ cú nguồn gốc từ một bộ sưu tập của email spam (là cỏc email thương mại khụng được yờu cầu mà đến từ 1 bưu điện hoặc cỏ nhõn đó đệ đơn thư rỏc) và cỏc email (cỏi mà đến từ cỏc tổ chức làm việc hoặc email cỏ nhõn). Ở đõy bộ sưu tập của chỳng ta bao gồm 4,601 messages, trong đú cú 1,813 thư rỏc và 2,788 email. Mỗi messages nhận về sẽ được chuyển thành biểu diễn vector của nú. Mỗi vector bao gồm 57 tọa độ ứng với 57 biến dựng để phõn biệt email và thư rỏc. Trong đú, cú 48 biến mà cú dạng "word_freq_WORD", mà đưa ra tỷ lệ phần trăm của cỏc từ trong email phự hợp WORD; 6 biến cú dạng "word_freq_CHAR", đưa ra phần trăm của

cỏc chữ trong email mà phự hợp CHAR; 3 biến độ dài, đo độ dài trung bỡnh, độ dài lớn nhất, và tổng độ dài của chuỗi khụng bị giỏn đoạn của cỏc chữ viết hoa liờn tiếp. Ở đõy, mỗi messages đó được gỏn nhón vào 1 trong 2 lớp email hay thư rỏc. Và bài toỏn đặt ra là chỳng ta sử dụng SVM để phõn loại 4,601 messages vào 1 trong 2 lớp đú (bài toỏn phõn loại nhị phõn) từ đú tỡm ra tỷ lệ phõn loại sai để xem mức độ chớnh xỏc của phương phỏp.

Ở đõy chỳng ta ỏp dụng SVM khụng tuyến tớnh (R package libsvm) sử dụng một kernel RBF đối với 4,061 messages (2,788 email và 1,813 spam). Lời giải SVM phụ thuộc vào chi phớ C của vi phạm ràng buộc và phương sai σ2 của kernel Gauss RBF. Bằng cỏch sử dụng phương phỏp thử và sửa sai, chỳng ta đó sử dụng lưới cỏc giỏ trị cho C và γ = 1

σ2:

C = 10,80,100,200,500,10000

γ = 0.00001(0.00001)0.0001(0.0001)0.002(0.001)0.01(0.01)0.04

Trong hỡnh, chỳng ta cú cỏc giỏ trị của 10-fold CV (kiểm chứng chộo) tỷ lệ phõn loại sai tương ứng vớiγ được liệt kờ ở trờn, trong đú mỗi đường cong (liờn kết với tập cỏc điểm) biểu diễn một giỏ trị khỏc nhau của C. Với mỗi C chỳng ta thấy rằng đường cong phõn loại sai CV/10 cú cỏc hỡnh dạng tương tự: 1 giỏ trị cực tiểu cho γ rất gần 0 và cho cỏc giỏ trị của γ xa 0thỡ cỏc đường cong là cú xu hướng đi lờn. Trong tỡm kiếm gốc, chỳng ta tỡm 1 cực tiểu CV/10 tỷ lệ

phõn loại sai là 8.06% tại (C;γ) = (500,0.0002) và (1,000,0.0002). Chỳng ta thấy rằng mức độ tổng quỏt của tỷ lệ phõn loại sai là cú xu hướng giảm khi C

tăng và γ giảm đồng thời.

Một chi tiết điều tra cho C > 1000 và γ gần 0 đó tiết lộ tỷ lệ phõn loại sai CV/10 là 6.91% tại C = 11,000 và γ = 0.00001 tương ứng với ước lượng 10 CV của tỷ lệ phõn loại đỳng:

0.9043,0.9478,0.9304,0.9261,0.9109,

0.9413,0.9326,0.9500,0.9326,0.9328

Lời giải này cú 931 support vectơ (482 email, 449 spam)điều này cú nghĩa là 1 tỷ lệ lớn (79.8%) của cỏc messages (cụ thể là 82.7% email và 75.2% spam) khụng là điểm support. Trong 4601 messages thỡ cú 2697 email và 1676 spam

được phõn loại đỳng (228 phõn loại sai)thu được tỷ lệ sai số hiển thị là 4.96%. So sỏnh với cỏc tiếp cận khỏc dựng để phõn lớp và lọc thư rỏc thỡ việc sử dụng SVM cú nhiều tiện ớch và phự hợp với nhu cầu của người dựng. Ở đõy, tiờu chuẩn phõn loại cú thể được học từ cỏc mẫu học riờng của từng cỏ nhõn, vỡ thế vận dụng của mỗi cỏ nhõn hay mỗi đơn vị cú thể tạo ra được những cỏch lọc của riờng mỡnh. Đồng thời sự mềm dẻo của nú cũng giỳp dễ dàng cho việc điều chỉnh tương thớch với sự xuất hiện của cỏc loại thư rỏc mới. Trong khi cỏc cụng cụ khỏc cú thể phải tốn nhiều cụng sức khi phỏt triển cỏc luật mới thỡ việc sử dụng SVM chỉ cần học lại trờn tập mẫu mở rộng (chứa mẫu thư rỏc cũ và mới), nú sẽ tự động phỏt triển tiờu chuẩn lọc thớch hợp với tỡnh huống mới. Một chương trỡnh như vậy khụng chỉ dựa trờn cơ sở cỏc mẫu thư rỏc mà người dựng đưa vào để huấn luyện mà nú cũng sử dụng cả mẫu thư mong muốn, chỳng được xem như là cỏc mẫu hợp lệ. Cỏc đặc tớnh của thư mong muốn sẽ cho ta một hệ thống chỉ dẫn thứ hai, nú tăng cường khả năng phõn lớp của hệ thống cho cỏc thu phức tạp và khụng rừ ràng khi nú cho phộp them một phạm trự phõn loại thứ ba là “mong muốn đảm bảo” ngoài cỏc phạm trự “spam đảm bảo” và “khụng rừ, khụng giống spam”. Do đú, sự phõn lớp sẽ trở nờn cụ thể rừ ràng hơn.

Một phần của tài liệu Một số kỹ thuật hiện đại trong phân tích thống kê nhiều chiều (Trang 59)

Tải bản đầy đủ (PDF)

(68 trang)