Lựa chọn các đặc trưng

Việc phân tích thành từ tố của hàng nghìn email sẽ dẫn đến một số lượng khổng lồ các đặc trưng, vì vậy việc lựa chọn các đặc trưng để làm giảm kích cỡ không gian các đặc trưng là rất cần thiết. Yang và Pedersen (1997) đưa ra đề xuất sử dụng phương pháp đánh giá độ Information Gain (IG) (Quinlan 1997) của đặc trưng để lựa chọn đặc trưng tốt nhất. Information Gain của một đặc trưng là độ đo lượng thông tin mà đặc trưng đó đóng góp vàp tập dữ liệu huấn luyện. Công thức tính IG của đặc trưng A trong tập dữ liệu huấn luyện T như sau[17]:

Tv là tập con của tập T

Entropy là độ đo xác định trong một tập dữ liệu có bao nhiêu tạp chất. công thức tính như sau[4]:

c là số lớp trong tập dữ liệu huấn luyện (trong lĩnh vực lọc spam có 2 lớp là lớp spam và nonspam).

Trong công nghệ lựa chọn đặc trưng Cunningham cũng đưa ra một phương pháp mới đó là sử

dụng Odds Ratio (OR) (Mladenic 1998). OR là phương pháp lựa chọn đặc trưng trong bài toán phân lớp nhị phân, sử dụng tỉ lệ chênh lệch (odd) của các đặc trưng xuất hiện trong một lớp với sự xuất hiện của đặc trưng đó trong một lớp khác. Công thức tính OR như sau:

Với P(fi|cj) là xác suất xuất hiện đặc trưng fi trong lớp cj

Hình 4.2 sẽ biểu diễn sự chính xác của việc lựa chọn đặc trưng khi sử dụng IG và OR. Rõ ràng ta thấy sử dụng IG cho độ chính xác cao hơn OR.

Hình 3.2: So sánh sử dụng IG và OR. Với tập dữ liệu gồm 1000 emails, 500 spam và 500 nonspam, chỉ sử dụng đặc trưng từ[17].

Cấu trúc của hệ thống

Mô hình thiết kết ầng Technical Architecture