Lựa chọn các đặc trưng

Một phần của tài liệu Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes (Trang 32)

Khi xét đến các vấn đề cụ thể của việc lọc thư rác việc lựa chọn được tập các đặc trưng của các thư điện tử là rất quan trọng, bên cạnh các từ riêng lẻ trong nội dung của các thông điệp nó cung cấp các dấu hiệu để nhận ra một thư điện tử có phải là thư rác hay không. Lấy ví dụ các cụm từ đặc biệt như là

“Free money” hay các phép chấm câu nhấn mạnh “!!!!” là ngụ ý của thư rác. Hơn nữa thư điện tử bao gồm nhiều những đặc trưng không phải của văn bản như là loại vùng của các thông điệp được gửi đi (e.g, edu hay ..com) nó cung cấp các đặc điểm của thông tin hàm chứa trong nội dung giúp cho ta có thể nhận biết một thư điện tử có phải là thư rác hay không.

Những thông tin đặc trưng được sử dụng trong các phân hoạch. Vấn đề đầu tiên là việc nghiên cứu các thư điện tử văn bản mà có sự xuất hiện của các cụm từ đặc biệt như là “free!”', “only $'' (cũng như “only $4.95”) và “be over 21”. Khoảng chừng vài trăm cụm từ “mánh khóe” nó coi như là một cách đặc biệt thích hợp mà vấn đề này hàm chứa.

Trong quá trình thêm vào các cụm từ đặc trưng chúng ta cũng coi như vùng miền cụ thể không là đặc trưng văn bản, như là loại vùng của người gửi thư (đã đề cập trước đó). Lấy ví dụ, thư rác gần như không bao giờ được gửi từ các vùng “.edu”. Hơn thế nữa nhiều chương trình đọc thư điện tử sẽ giải quyết các địa chỉ Email gia đình.

(i.e. thay thế bằng sdumais@microsoft.com với Susan Dumais).

Bằng việc xem xét các thư điện tử được gửi từ những người sử dụng cá nhân đến người nhận thư, chúng ta cũng có thể cung cấp thêm các dấu hiệu để nhận biết một thư điện tử không phải là thư rác. Một số sự khác biệt đơn giản

khác chẳng hạn một thư điện tử có đính kèm một tài liệu (hầu hết các thư rác

đều không có) hay khi một thư điện tử được gửi đi và được nhận (hầu hết các thư rác đều được gửi vào buổi tối) cũng chỉ ra sự khác biệt mạnh mẽ giữa thư rác và các thư điện tử hợp lệ. Xa hơn nữa chúng ta có thể coi một số các nét đặc biệt hữu dụng khác, nó làm việc khá tốt trong phân hoạch xác suất nhưng có cũng khó giải quyết nếu chỉ dựa vào hệ thống các luật. Những đặc trưng bao gồm cả tỉ lệ các kí tự đặc biệt trong chủ đề của các thư điện tử (thư rác, ví dụ thường có tiêu đề được mô tả như sau: “$$$$ BIG MONEY $$$$”) nó bao gồm một tỉ lệ cao các kí tự đặc biệt. Xét về tổng thể chúng ta có thể ước lượng khoảng chừng vài trăm các cụm từ mánh khóe, các đặc trưng loại vùng cụ thể trong máy lọc thư rác của chúng ta.

Trong các bộ lọc thư rác bằng Naive Bayes sức mạnh của nó có thể phụ thuộc vào tập các đặc trưng lựa chọn. Chúng ta lựa chọn các đặc trưng bằng việc sử dụng hai phương pháp:

-Phương pháp kĩ thuật đầu tiên sử dụng trong lĩnh vực phân loại văn bản . Với mỗi từ xuất hiện trong nội dung của các thư điện tử trong tập văn bản mẫu, chúng ta sẽ đưa vào một đặc trưng thích hợp. Với mỗi thư điện tử, đặc trưng này sẽ nhận giá trị là 1 nếu nội dung của các thư điện tử có chứa nó và nhận giá trị không trong trường hợp ngược lại. Từ các tập đặc trưng này chúng ta chọn ra 2002 đặc trưng với lượng tin tương hỗ là lớn nhất nhận các giá trị [7,5,6,4] chúng ta tính toán lượng tin tương hỗ cho mỗi đặc trưng ứng X như sau: { }∑ ∈ ∈ = = = = = = = ) 1 , 0 ( , 1 , 0 ( )* ( ) ) , ( log ) , ( ) ; ( y x P X x P Y y y Y x X P y Y x X P Y X MI

một lợi thế của phương pháp này là thông tin được tự động hóa một cách dễ dàng, các đặc trưng ứng viên và các lượng tin tương hỗ MI của chúng có thể giữ trong một phạm vi nhất định và có thể cập nhật ở mọi nơi khi dữ liệu mới được đưa vào, và khoảng 200 đặc trưng đầu tiên có thể lựa chọn lại nếu cần thiết. Con đường kiểu mới này của thư rác hay thư hợp lệ có thể được kết hợp chặt chẽ trong bộ lọc qua thời gian, để phù hợp với mục đích của chúng ta là tự động học và thích nghi với thư rác.

-Phương pháp thứ hai mà chúng ta sử dụng để lựa chọn các đặc trưng đưa đến một lĩnh vực kiến thức đặc biệt trong kết quả tính toán, nó đối lập với phương pháp đầu tiên, nó có thể hiển thị quá trình lọc thư rác như vấn đề chung của phân loại văn bản. Chúng ta chắc chắn các thư rác có khuôn mẫu mà chúng khác biệt so với các thư điện tử hợp lệ.

+ Đầu tiên các khuôn mẫu đó là các kết quả của mục tiêu gửi thư rác

tới địa điểm đầu tiên. Một cách tường minh những kẻ gửi thư rác thường cố gắng tiếp thị cho người sử dụng một số thứ và như thế thường bao hàm thông tin về giá cả trong các thông điệp của chúng. Như mô hình của sự tiếp thị trực tiếp, các thư rác thường sử dụng HTML để tạo các thông điệp trông hấp dẫn hoặc thu hút sự chú ý

nhất bằng việc sử dụng các đường link trong web.

+ Thứ hai sự trình diện của các biện pháp pháp lí chống lại các thư

rác gây hại đã tạo ra sự tác động trên định dạng của thư rác. Lấy ví

dụ những người gửi thư rác hay làm giả mạo từ địa chỉ và giả mạo

+ Thứ ba những đề xuất kinh nghiệm trong chủ đề thư rác hay bị sa ngã vào một phạm vi eo hẹp về các loại.

Không gian đặc trưng thường có kích thước là rất lớn (thông thường trong những yêu cầu có kích thước khoảng vài ngàn từ). Bởi vậy chúng ta phải lựa chọn các đặc trưng với nhiều lí do. Đầu tiên để giảm bớt kích thước giúp ích cho việc cung cấp một điều khiển rõ ràng trong mô hình kết quả khác nhau từ sự ước lượng nhiều tham số. Hơn nữa lựa chọn đặc trưng cũng giúp cho việc làm giảm mức độ để nó không phụ thuộc vào các giả định được đưa ra bởi phân hoạch Naive Bayes.

Một phần của tài liệu Xây dựng một Email Client với khả năng lọc thư rác tự động bằng việc ứng dụng phương pháp phân loại văn bản Naive Bayes (Trang 32)

w