Biểu diễn đặc trưng

Trong lĩnh vực lọc spam, mỗi một ví dụ học là một case được biểu diễn dưới dạng một vector các giá trị thuộc tính ej= (f1j, f2j , . . . fnj, s). Trong phân lớp văn bản những đặc trưng của từ vựng thường được biểu diễn dưới hai dạng[17]:

(a) mã nhị phân ví dụ như: nếu đặc trưng fij thuộc vào email ei thì fij=1, ngược lại bằng 0.

(b) biểu diễn dưới dạng số, trong đĩ fij là số lần xuất hiện của đặc trưng đĩ trong email.

Thuộc tính s biểu diễn cho lớp email đĩ là spam hay là nonspam.

Thường giá trị của fij cho fi trong email ejđược tính dựa vào tần suất xuất hiện của đặc trưng đĩ trong email. Cơng thức tính như sau:

freqij là số lần xuất hiện của fi trong email ej. Cơng thức trên được tính cho cảđặc trưng từ và đặc trưng chữ cái và đặc trưng thống kê.

Trong phương pháp biểu diễn dưới dạng nhị phân. Đối với các đặc trưng từ, sử dụng luật tồn tại để xác định: nếu từ đĩ xuất hiện trong email thì giá trị của đặc trưng fij=1 và ngược lại fij=0. Tuy nhiên với đặc trưng chữ cái thì khơng thể sử dụng luật tồn tại được vì hầu như các chữ cái đều xuất hiện trong email. Với đặc trưng chữ cái chúng ta sử dụng giá trị Information Gain (Quinlan năm 1997) của đặc trưng đĩ để từ đĩ kết luận giá trị fij của nĩ bằng 1 hay bằng 0. Hình 3.1 dưới đây biểu diễn độ chính xác khi sử dụng biểu diễn kí tự dưới dạng binary của hai tập dữ liệu và dưới dạng numeric, ta thấy khi biểu diễn kí tự dưới dạng binary cho độ chính xác cao hơn.

Hình 3.1 : Biểu diễn sự so sánh độ chính xác thu được khi biểu diễn dưới dạng binary và dạng số[17].

Lựa chọn các đặc trưng

Cấu trúc của hệ thống