Các đặc trưng của thư rác

Một phần của tài liệu Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy naive bayes (Trang 28 - 30)

Đặc tính chung của thƣ rác là khơng ràng buộc về mặt nội dung. Phần lớn

các thƣ rác tuân theo các mẫu chung và cĩ thể đƣợc nhận diện một cách rõ ràng. Ngồi ra, các thƣ rác cĩ các đặc điểm về ngơn ngữ, thời gian.... Hầu hết các thƣ rác này đƣợc viết bằng tiếng Anh với tỉ lệ rất cao hơn 80%.

Đặc điểm chính của thƣ rác khác biệt với thƣ thơng thƣờng đĩ là:

- Thƣ rác đƣợc gửi đi một cách tự động: Mục đích của những kẻ gửi thƣ rác

(spammer) là cĩ thể phát tán lƣợng thƣ rác tới ngƣời dùng càng nhiều càng tốt. Do vậy, chúng thƣờng viết ra những phần mềm tựđộng gửi một lƣợng lớn thƣ rác trong một khoảng thời gian ngắn.

- Thƣ rác đƣợc gửi đến những địa chỉ ngẫu nhiên trên một diện rộng. Địa chỉ

email của ngƣời bị nhận thƣ rác rất ngẫu nhiên và dƣờng nhƣ giữa họ khơng cĩ mối quan hệ với nhau. - Nội dung của thƣ rác thƣờng là những nội dung bất hợp pháp, gây phiền hà cho ngƣời dùng. Phần lớn nội dung của thƣ rác là những thơng tin mời chào về thƣơng mại, quảng cáo sản phẩm. Bên cạnh đĩ, phải kểđến những thƣ rác

cĩ nội dung xấu (nhƣ khiêu dâm, chống phá chính trị...), gây tâm lý lo ngại cho

ngƣời làm cơng nghệ thơng tin. Lƣợng thƣ rác phát tán virus cũng khơng nhỏ.

tính của ngƣời dùng, ăn cắp những thơng tin cá nhân hoặc làm hỏng dữ liệu lƣu trên

máy.

- Địa chỉ của ngƣời gửi thƣ rác thƣờng là những địa chỉ trá hình. Để tránh sự

nghi ngờ của ngƣời nhận, một số kẻ gửi thƣ rác thƣờng giả dạng địa chỉ của một

ngƣời dùng bình thƣờng trong một máy chủ email nào đĩ một cách bất hợp pháp hoặc dùng một địa chỉảo nào đĩ để gửi thƣ rác.

Cĩ nhiều phƣơng pháp và thủ thuật khác nhau mà những kẻ gửi thƣ rác áp

dụng trong việc dị tìm địa chỉ email của ngƣời dùng nhƣ:

 Dùng chƣơng trình tựđộng dị tìm địa chỉ email trên mạng Internet, các trang chủ, Newsgroup, Chat room....

 Mua địa chỉ email từ những cơng ty đã xây dựng danh sách khách hàng của họnhƣng vì lý do nào đĩ phải bán đi hoặc đối tác của cơng ty đƣợc phép truy cập danh sách khách hàng của cơng ty này để gửi thơng tin về dịch vụ hay sản phẩm.

 Email chuỗi (Chain letter) từ bạn bè và ngƣời thân, yêu cầu gửi thƣ cho càng

nhiều ngƣời càng tốt vì lý do thƣơng ngƣời, ủng hộ một chƣơng trình nào đĩ, hoặc mời chào ngƣời dùng nếu gửi cho nhiều ngƣời sẽđƣợc nhận nhiều tiền hơn.

 Dùng chƣơng trình đốn tên tự động: Những kẻ gửi thƣ rác dùng chƣơng

trình này gửi email liên tục vào một nơi để đốn địa chỉ email qua những phƣơng pháp nhƣ E-pending, Dictionary hay Alphabet.

Bên cạnh đĩ, những kẻ gửi thƣ rác cịn cĩ thể cĩ đƣợc địa chỉ email của

ngƣời dùng do:

 Các nhà cung cấp dịch vụ ISP khơng cĩ chính sách và cơng nghệ bảo mật, dẫn đến các tin tặc (hacker) ăn cắp địa chỉ của khách hàng để buơn bán và quấy nhiễu. Hoặc cĩ thể do chính nhà cung cấp ISP buơn bán địa chỉ email của khách

hàng để kiếm lợi nhuận. Nhân viên của các ISP đã tiết lộ thơng tin về khách hàng

cho các đối thủ cạnh tranh của chính ISP đĩ, hoặc cho những cơng ty muốn quảng cáo cho những khách hàng riêng biệt.

 Chính ngƣời dùng cung cấp địa chỉ email của mình qua những lần đăng kí

cuộc xổ số mà chẳng bao giờ biết quả, hoặc những bản tin điện tử (newsletter) vơ

nghĩa.

Một phần của tài liệu Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy naive bayes (Trang 28 - 30)

Tải bản đầy đủ (PDF)

(49 trang)