Biểu diễn đặc trưng

Một phần của tài liệu Nghiên cứu phương pháp học máy trong lọc thư rác (Trang 28 - 29)

Trong lĩnh vực lọc spam, mỗi một ví dụ học là một case được biểu diễn dưới dạng một vector các giá trị thuộc tính ej= (f1j, f2j , . . . fnj, s). Trong phân lớp văn bản những đặc trưng của từ vựng thường được biểu diễn dưới hai dạng[17]:

(a) mã nhị phân ví dụ như: nếu đặc trưng fij thuộc vào email ei thì fij=1, ngược lại bằng 0.

(b) biểu diễn dưới dạng số, trong đó fij là số lần xuất hiện của đặc trưng đó trong email.

Thuộc tính s biểu diễn cho lớp email đó là spam hay là nonspam.

Thường giá trị của fij cho fi trong email ejđược tính dựa vào tần suất xuất hiện của đặc trưng đó trong email. Công thức tính như sau:

freqij là số lần xuất hiện của fi trong email ej. Công thức trên được tính cho cảđặc trưng từ và đặc trưng chữ cái và đặc trưng thống kê.

Trong phương pháp biểu diễn dưới dạng nhị phân. Đối với các đặc trưng từ, sử dụng luật tồn tại để xác định: nếu từ đó xuất hiện trong email thì giá trị của đặc trưng fij=1 và ngược lại fij=0. Tuy nhiên với đặc trưng chữ cái thì không thể sử dụng luật tồn tại được vì hầu như các chữ cái đều xuất hiện trong email. Với đặc trưng chữ cái chúng ta sử dụng giá trị Information Gain (Quinlan năm 1997) của đặc trưng đó để từ đó kết luận giá trị fij của nó bằng 1 hay bằng 0. Hình 3.1 dưới đây biểu diễn độ chính xác khi sử dụng biểu diễn kí tự dưới dạng binary của hai tập dữ liệu và dưới dạng numeric, ta thấy khi biểu diễn kí tự dưới dạng binary cho độ chính xác cao hơn.

Hình 3.1 : Biểu diễn sự so sánh độ chính xác thu được khi biểu diễn dưới dạng binary và dạng số[17].

Một phần của tài liệu Nghiên cứu phương pháp học máy trong lọc thư rác (Trang 28 - 29)

Tải bản đầy đủ (PDF)

(53 trang)