Phƣơng pháp lọc nội dung để phân loại thƣ rác đã và đang đƣợc quan tâm, nghiên cứu và ứng dụng nhiều nhất. Đặc điểm chung của phƣơng pháp này là dựa vào nội dung và chủ đề bức thƣ để phân biệt thƣ rác và thƣ hợp pháp. Dƣới đây là các phƣơng pháp lọc nội dung thơng dụng.
2.2.3.1. Lọc thư rác dựa vào các dấu hiệu nhận biết
Đầu tiên, ngƣời ta tạo ra các địa chỉ email để bẫy thƣ rác, gọi là các honeypots. Các địa chỉ này đƣợc tạo ra một cách cố ý sao cho khơng bao giờ thƣ bình thƣờng đƣợc gửi tới. Do đĩ, nếu cĩ thƣ gửi vào các địa chỉ bẫy thì ta cĩ thể chắc chắn đĩ là thƣ rác.
Sau đĩ hệ thống sẽ so sánh thƣ mới đến với thƣ đã bẫy đƣợc. Cách thức so sánh là dựa trên dấu hiệu nhận biết. Nếu hai bức thƣ cĩ các dấu hiện giống nhau thì bức thƣ mới tới là thƣ rác.
Phƣơng pháp thƣờng dùng để so sánh hai bức thƣ nhƣ trên là gán cho mỗi ký tự một số nào đĩ, tiếp theo cộng dồn các số đã gán lại với nhau. Hai bức thƣ sẽ đƣợc coi là giống nhau nếu cĩ tổng các số đã gán bằng nhau.
Ƣu điểm của phƣơng pháp lọc thƣ này là đơn giản, nhanh và khơng lọc nhầm thƣ thƣờng thành thƣ rác. Tuy nhiên, những ngƣời gửi thƣ rác lại dễ dàng đánh bại hệ thống này bằng cách sinh ngẫu nhiên các mẩu thƣ rác sau đĩ gộp lại thành một bức thƣ hồn chỉnh. Khi đĩ các “dấu hiệu“ của các bức thƣ đƣợc gửi sẽ khác nhau và thƣ rác sẽ lọt qua đƣợc hệ thống lọc. Bởi vậy tỉ lệ lọc thƣ rác của hệ thống này khơng bao giờ vƣợt ngƣỡng 70%.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Do khả năng lọc thƣ chính xác (khơng chặn nhầm thƣ hợp pháp) và dễ triển khai nên hệ thống này thƣờng đƣợc dùng để lọc thƣ tại phía server.
2.2.3.2. Lọc thư rác thơng qua bỏ phiếu trên các danh sách trắng
Hoạt động của bộ lọc dạng này là tìm xem các từ ở trong danh sách đen/trắng cĩ nằm trong bức thƣ mới tới hay khơng và đếm số lần xuất hiện của chúng. Nếu số lƣợng từ thuộc danh sách trắng nhiều hơn (rất nhiều) số từ đếm đƣợc thuộc danh sách đen thì bức thƣ đĩ là thƣ hợp pháp, ngƣợc lại sẽ là thƣ rác.
Các đặc trƣng của bộ lọc:
Khơng cĩ biến đổi dữ liệu ban đầu. Dữ liệu ra giống nhƣ dữ liệu vào Biểu thức chính quy để tách từ ra khỏi thƣ là: [[:graph:]]+
Việc chọn đặc trƣng chỉ đơn giản là các từ đơn
Cơ sở dữ liệu về đặc trƣng chỉ đƣợc nạp khi các từ nằm trong danh sách đen hoặc danh sách trắng, nếu là nằm trong dánh sách trắng thì đặt là +1, nếu thuộc danh sách đen sẽ đặt là -1, tất cả các trƣờng hợp khác đặt giá trị 0.0.
Luật tổ hợp là “Điểm mới = Điểm cũ + trọng số của đặc trƣng”
Ngƣỡng lọc cuối cùng là: “Nếu điểm mới > 0 thì là thƣ hợp pháp”, “Nếu điểm mới < 0 thì là thƣ rác”. Khơng khẳng định trong các trƣờng hợp khác.
Nhƣ vậy bộ lọc thực hiện chấm điểm các từ trong danh sách đen và các từ trong danh sách trắng bằng nhau. Một số cải biên của bộ lọc này là đánh trọng số cho các từ trong danh sách đen cao hơn trong danh sách trắng và ngƣợc lại.
2.2.3.3. Lọc thư sử dụng phương pháp heuristic
Cách thức hoạt động của phƣơng pháp này là con ngƣời sẽ xác định những đặc trƣng (từ ngữ) nào là của thƣ rác, đặc trƣng nào là của thƣ hợp pháp, sau đĩ viết chƣơng trình để phát hiện những đặc trƣng đĩ trong bức thƣ gửi tới.
Ngƣời ta đánh trọng số cho các đặc trƣng trên (cĩ thể thực hiện bằng tay hoặc sử dụng thuật tốn) và lập một ngƣỡng để phân loại thƣ. Bức thƣ sẽ đƣợc coi là thƣ rác nếu cĩ các đặc trƣng với trọng số vƣợt ngƣỡng quy định.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Hiệu suất chặn thƣ rác của các chƣơng trình sử dụng phƣơng pháp này rất khác nhau. Vì mỗi chƣơng trình sử dụng các luật lọc khác nhau. Luật đơn giản nhất là nếu bức thƣ nào chứa các đặc trƣng của thƣ rác thì đĩ là thƣ rác. Điều này sẽ làm cho bộ lọc chặn mất rất nhiều thƣ hợp pháp.
Một số chƣơng trình lọc thƣ theo phƣơng pháp này nhƣ hệ thống chấm điểm cho email sử dụng phƣơng pháp hueristic (Heuristic Message Scoring System) của mail server MDaemon . Hệ thống chấm điểm email này đúc kết trên kinh nghiệm là việc kiểm tra, lọc email sử dụng một số lƣợng lớn các luật theo trật tự để máy tính chấm điểm. Điểm số này sẽ đƣợc sử dụng để quyết định một email cĩ phái là spam email hay khơng.... Ngồi cịn một số các bộ lọc thƣ rác khác nhƣ SpamAssassin, hoặc SpamGuard của Yahoo.
Phƣơng pháp này cĩ ƣu điểm là dễ cài đặt và hiệu suất chặn thƣ rác khá cao (nếu xây dựng đƣợc các luật tốt) khoảng 90-95%. Nhƣợc điểm chính của phƣơng pháp này là tỉ lệ chặn nhầm thƣ hợp pháp cũng rất lớn (khoảng 0.5%). Ngồi ra phƣơng pháp này cũng khơng linh hoạt vì các luật đƣợc xây dựng luơn luơn chậm hơn rất nhiều so với sự biến đổi của từ ngữ trong thƣ rác.
Ngƣời ta thƣờng sử dụng phƣơng pháp này cho các bộ lọc thƣ ở mail server.
2.2.3.4. Lọc thư sử dụng phương pháp xác suất thống kê và học máy
Phƣơng thức hoạt động của phƣơng pháp này là, đầu tiên con ngƣời sẽ phân loại các bức thƣ đã cĩ thành hai tập hợp, thƣ rác và thƣ hợp pháp. Một thuật tốn đƣợc sử dụng để trích chọn và đánh trọng số cho các đặc trƣng của thƣ rác theo một cách nào đĩ (thƣờng sử dụng cơng thức xác suất). Sau khi trích trọn đặc trƣng, hai tập thƣ rác và thƣ hợp pháp sẽ đƣợc sử dụng để huấn luyện một bộ phân loại tự động. Quá trình huấn luyện dựa trên một phƣơng pháp học máy.
Khi một bức thƣ mới tới nĩ sẽ đƣợc tách thành các đặc trƣng (từ hoặc cụm từ) rồi đƣợc so sánh với các đặc trƣng đã cĩ để tìm ra trọng số. Từ tổ hợp trọng số của các đặc trƣng sẽ đánh giá đƣợc bức thƣ đĩ cĩ phải là thƣ rác hay khơng bằng
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ cách so sánh với một ngƣỡng do ngƣời dùng định ra. Cách tổ hợp đặc trƣng và phân loại thƣ rác cĩ thể khác nhau và phụ thuộc vào thuật tốn phân loại cụ thể.
Hình 2.6: Mơ hình tổng quát lọc thư rác Tiếng Việt
Tỉ lệ chặn thƣ rác của bộ lọc sử dụng phƣơng pháp này rất cao, khoảng 99%. Chƣơng trình SpamProbe cĩ thể đạt tỉ lệ lọc thƣ rác tới 99.9%. Các phƣơng pháp học máy và xác suất thống kê cho phép phân loại cả những thƣ rác chƣa từng xuất hiện trƣớc đĩ (chƣa cĩ trong dữ liệu huấn luyện).
Một ƣu điểm khác nữa của phƣơng pháp này là tỉ lệ chặn thƣ hợp pháp rất thấp, thấp hơn rất nhiều so với phƣơng pháp heuristic.
Nhƣợc điểm của của phƣơng pháp học máy là phải cĩ một tập hợp các thƣ để huấn luyện. Hiệu suất của bộ lọc sẽ phụ thuộc rất nhiều vào tập huấn luyện ban đầu đĩ. Tập dữ liệu càng lớn và càng chứa nhiều dạng thƣ khác nhau sẽ cho độ chính xác phân loại càng cao về sau.
Hiện nay, phƣơng pháp lọc thƣ sử dụng học máy và xác suất thống kê đƣợc coi là một phƣơng pháp triển vọng với nhiều ứng dụng thƣơng mại nhƣ tại Hotmail, Google, Yahoo. Phƣơng pháp này sẽ đƣợc nghiên cứu chi tiết và trình bày trong các chƣơng tiếp theo.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/