4. Bài tốn phát hiện và ngăn chặn thƣ rác cho ứng dụng thƣ điện tử
4.3 Nguồn gốc xuất phát của thƣ rác
Để chống đƣợc thƣ rác thì việc tìm ra nguồn gốc phát tán của thƣ rác là yếu tố quan trọng để loại bỏ “tận gốc” thƣ rác, hệ thống sẽ hạn chế đƣợc nhiều thời gian cho việc xử lý các điều kiện khác (ví dụ: nếu chƣa xác định đƣợc nguồn gốc một thƣ rác, thì máy chủ thƣ phải thực hiện kiểm tra, chặn trên nhiều luật (Blacklist, Whitelist, SURBL list, DNS blacklist,…) gây tốn thời gian, tài nguyên hệ thống. Tuy nhiên, nếu phát hiện đƣợc địa chỉ IP của thƣ rác thì việc chọn giải pháp chặn địa chỉ IP là giải pháp với kết quả tốt nhất). [9]
Khi đã nắm đƣợc cấu trúc của một thƣ điện tử, nhận dạng đƣợc thƣ rác thơng qua một số dấu hiệu nhận biết, đĩ là các dấu hiệu quan trọng để phát hiện nguồn gốc và ngăn chặn thƣ rác.
Thƣ rác khơng thể tự sinh ra, vậy ai tạo ra thƣ rác, cĩ thể là tất cả chúng ta. Vậy vơ tình hay cố ý, thì việc gửi thƣ đến ngƣời nhận khơng mong muốn thì thƣ đĩ đều cĩ thể xem là thƣ rác.
Header của thƣ điện tử là nơi chứa các thơng tin về quá trình chuyển tiếp thƣ từ ngƣời gửi đến ngƣời nhận. Do đĩ, đọc và phân tích đƣợc header của thƣ điện tử sẽ cho biết chính xác nguồn gốc của thƣ, từ đĩ cĩ thể tìm ra chính xác vị trí thƣ điện tử đƣợc phát tán. [9]
Trong nội dung thƣ điện tử gửi đến ngƣời nhận bao gồm các đầy đủ thơng tin về: địa chỉ IP của máy gửi thƣ; địa chỉ hịm thƣ nhận; địa chỉ hịm thƣ nhận phản hồi khi thƣ bị trả lại (Return-Path); địa chỉ hịm thƣ tiếp nhận thƣ trả lời (Reply-To) và địa chỉ hịm thƣ ngƣời gửi (from); nội dung thƣ; Tiêu đề thƣ; Các tệp tin đính kèm. Nhƣng trong chế độ hiển thị thơng thƣờng (mặc định) để đơn giản hĩa giao diện, hầu hết các chƣơng trình duyệt thƣ điện tử chỉ hiện các thơng tin: địa chỉ hịm thƣ trả lời (Reply), địa chỉ hịm thƣ ngƣời nhận, tiêu đề thƣ, nội dung thƣ, các tệp tin đính kèm và các thời gian liên quan. Các thơng tin chi tiết về nguồn gốc của thƣ nhƣ: địa chỉ IP của máy gửi thƣ, địa chỉ hịm thƣ nhận phản hồi khi thƣ bị trả lại
ngƣời gửi (From) đƣợc lƣu trong phần đầu (Header) của thƣ sẽ chỉ hiện thị chi tiết khi ngƣời nhận thƣ sử dụng các chức năng cho xem nguồn gốc (original) của t hƣ hoặc xem nội dung phần đầu của thƣ (Chú ý: đối với mỗi trình duyệt và hệ quản trị thƣ điện tử khác nhau sẽ cĩ những cách khác nhau để xem nguồn gốc của thƣ điện tử, tuy nhiên tất cả các phần mềm trên đều hỗ trợ chức năng này).
Theo báo cáo tháng 7/2014 của Kaspersky Lab [4]: Hoa Kỳ đứng đầu trên biểu đồ địa lý về nguồn phát tán thƣ rác chiến (15,3%). Tiếp theo, Nga đứng ở vị trí thứ hai với 5,6%, Trung Quốc đứng ở vị trí thứ ba với 5,3%, Việt Nam với 3,5% đứng ở vị trí thứ 8.
Hình 10: Các nguồn thư rác trên tồn thế giới tính đến tháng 7/2014
Tuy nhiên, tháng 8/2014 biểu đồ này đã cĩ thay đổi, khi ba nƣớc đầu tiên là Mỹ, Nga, Trung quốc vẫn giữ nguyên thứ tự với các tỷ lệ lần lƣợt là 15,9%, 6%, 4,7%. Việt Nam nhảy lên mức 4 với 4,7% lƣợng thƣ rác đƣợc phân phát trên thế giới.