Lựa chọn các đặc trưng

Việc phân tích thành từ tố của hàng nghìn email sẽ dẫn đến một số lượng khổng lồ các đặc trưng, vì vậy việc lựa chọn các đặc trưng để làm giảm kích cỡ khơng gian các đặc trưng là rất cần thiết. Yang và Pedersen (1997) đưa ra đề xuất sử dụng phương pháp đánh giá độ Information Gain (IG) (Quinlan 1997) của đặc trưng để lựa chọn đặc trưng tốt nhất. Information Gain của một đặc trưng là độ đo lượng thơng tin mà đặc trưng đĩ đĩng gĩp vàp tập dữ liệu huấn luyện. Cơng thức tính IG của đặc trưng A trong tập dữ liệu huấn luyện T như sau[17]:

Tv là tập con của tập T

Entropy là độ đo xác định trong một tập dữ liệu cĩ bao nhiêu tạp chất. cơng thức tính như sau[4]:

c là số lớp trong tập dữ liệu huấn luyện (trong lĩnh vực lọc spam cĩ 2 lớp là lớp spam và nonspam).

Trong cơng nghệ lựa chọn đặc trưng Cunningham cũng đưa ra một phương pháp mới đĩ là sử

dụng Odds Ratio (OR) (Mladenic 1998). OR là phương pháp lựa chọn đặc trưng trong bài tốn phân lớp nhị phân, sử dụng tỉ lệ chênh lệch (odd) của các đặc trưng xuất hiện trong một lớp với sự xuất hiện của đặc trưng đĩ trong một lớp khác. Cơng thức tính OR như sau:

Với P(fi|cj) là xác suất xuất hiện đặc trưng fi trong lớp cj

Hình 4.2 sẽ biểu diễn sự chính xác của việc lựa chọn đặc trưng khi sử dụng IG và OR. Rõ ràng ta thấy sử dụng IG cho độ chính xác cao hơn OR.

Hình 3.2: So sánh sử dụng IG và OR. Với tập dữ liệu gồm 1000 emails, 500 spam và 500 nonspam, chỉ sử dụng đặc trưng từ[17].

Cấu trúc của hệ thống