Các đặc trưng của thư rác

Một phần của tài liệu luận văn thạc sĩ nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy naive bayes (Trang 29 - 31)

Đặc tính chung của thƣ rác là khơng ràng buộc về mặt nội dung. Phần lớn các thƣ rác tuân theo các mẫu chung và cĩ thể đƣợc nhận diện một cách rõ ràng. Ngồi ra, các thƣ rác cĩ các đặc điểm về ngơn ngữ, thời gian.... Hầu hết các thƣ rác này đƣợc viết bằng tiếng Anh với tỉ lệ rất cao hơn 80%.

Đặc điểm chính của thƣ rác khác biệt với thƣ thơng thƣờng đĩ là:

- Thƣ rác đƣợc gửi đi một cách tự động: Mục đích của những kẻ gửi thƣ rác (spammer) là cĩ thể phát tán lƣợng thƣ rác tới ngƣời dùng càng nhiều càng tốt. Do vậy, chúng thƣờng viết ra những phần mềm tự động gửi một lƣợng lớn thƣ rác trong một khoảng thời gian ngắn.

- Thƣ rác đƣợc gửi đến những địa chỉ ngẫu nhiên trên một diện rộng. Địa chỉ email của ngƣời bị nhận thƣ rác rất ngẫu nhiên và dƣờng nhƣ giữa họ khơng cĩ mối quan hệ với nhau. - Nội dung của thƣ rác thƣờng là những nội dung bất hợp pháp, gây phiền hà cho ngƣời dùng. Phần lớn nội dung của thƣ rác là những thơng tin mời chào về thƣơng mại, quảng cáo sản phẩm. Bên cạnh đĩ, phải kể đến những thƣ rác cĩ nội dung xấu (nhƣ khiêu dâm, chống phá chính trị...), gây tâm lý lo ngại cho ngƣời làm cơng nghệ thơng tin. Lƣợng thƣ rác phát tán virus cũng khơng nhỏ. Trong những thƣ này thƣờng đƣợc gắn kèm virus cĩ thể làm tê liệt hồn tồn máy

tính của ngƣời dùng, ăn cắp những thơng tin cá nhân hoặc làm hỏng dữ liệu lƣu trên máy.

- Địa chỉ của ngƣời gửi thƣ rác thƣờng là những địa chỉ trá hình. Để tránh sự nghi ngờ của ngƣời nhận, một số kẻ gửi thƣ rác thƣờng giả dạng địa chỉ của một ngƣời dùng bình thƣờng trong một máy chủ email nào đĩ một cách bất hợp pháp hoặc dùng một địa chỉ ảo nào đĩ để gửi thƣ rác.

Cĩ nhiều phƣơng pháp và thủ thuật khác nhau mà những kẻ gửi thƣ rác áp dụng trong việc dị tìm địa chỉ email của ngƣời dùng nhƣ:

 Dùng chƣơng trình tự động dị tìm địa chỉ email trên mạng Internet, các trang chủ, Newsgroup, Chat room....

 Mua địa chỉ email từ những cơng ty đã xây dựng danh sách khách hàng của họ nhƣng vì lý do nào đĩ phải bán đi hoặc đối tác của cơng ty đƣợc phép truy cập danh sách khách hàng của cơng ty này để gửi thơng tin về dịch vụ hay sản phẩm.

 Email chuỗi (Chain letter) từ bạn bè và ngƣời thân, yêu cầu gửi thƣ cho càng nhiều ngƣời càng tốt vì lý do thƣơng ngƣời, ủng hộ một chƣơng trình nào đĩ, hoặc mời chào ngƣời dùng nếu gửi cho nhiều ngƣời sẽ đƣợc nhận nhiều tiền hơn.

 Dùng chƣơng trình đốn tên tự động: Những kẻ gửi thƣ rác dùng chƣơng trình này gửi email liên tục vào một nơi để đốn địa chỉ email qua những phƣơng pháp nhƣ E-pending, Dictionary hay Alphabet.

Bên cạnh đĩ, những kẻ gửi thƣ rác cịn cĩ thể cĩ đƣợc địa chỉ email của ngƣời dùng do:

 Các nhà cung cấp dịch vụ ISP khơng cĩ chính sách và cơng nghệ bảo mật, dẫn đến các tin tặc (hacker) ăn cắp địa chỉ của khách hàng để buơn bán và quấy nhiễu. Hoặc cĩ thể do chính nhà cung cấp ISP buơn bán địa chỉ email của khách hàng để kiếm lợi nhuận. Nhân viên của các ISP đã tiết lộ thơng tin về khách hàng cho các đối thủ cạnh tranh của chính ISP đĩ, hoặc cho những cơng ty muốn quảng cáo cho những khách hàng riêng biệt.

 Chính ngƣời dùng cung cấp địa chỉ email của mình qua những lần đăng kí thành viên trên Internet hoặc trên giấy tờ các dịch vụ mà chẳng bao giờ dùng, những

cuộc xổ số mà chẳng bao giờ biết quả, hoặc những bản tin điện tử (newsletter) vơ nghĩa.

Một phần của tài liệu luận văn thạc sĩ nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy naive bayes (Trang 29 - 31)