Khái quát về thư rác

Một phần của tài liệu Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy naive bayes (Trang 27 - 28)

Thƣ rác, hay spam là một loại thƣ đƣợc gửi với sốlƣợng lớn, theo chủ ý của

ngƣời gửi, hồn tồn khơng cĩ sự liên hệ gì với ngƣời nhận.

Đứng trên quan điểm của ngƣời gửi, đĩ là một hình thức gửi thƣ theo số lƣợng lớn (nên gọi là bulk email) cho một danh sách địa chỉ chọn lọc ra từ các diễn

đàn (Usenet discussion group), các danh sách địa chỉ email (mailing list)… Hiện

nay cũng cĩ nhiều cơng ty mà cơng việc kinh doanh chính là nhận gửi thƣ rác cho

khách hàng của họ.

Về phía ngƣời nhận, đa phần các bức thƣ này khơng cĩ giá trị và thật sự khơng đƣợc mong muốn, chúng bị coi nhƣ một thứrác rƣởi, tạp nham (xuất phát từ

cụm junk email). Phần lớn các thƣ này cĩ nội dung quảng cáo thƣơng mại cho một loại sản phẩm hay dịch vụ nào đĩ và những bức thƣ này đƣợc gọi là UCE (Unsolicited Commercial Email). Tác hại của thƣ rác bao gồm:

- Gây tắc nghẽn đƣờng truyền Internet.

- Mất nhiều thời gian để tìm kiếm email hợp lệ khi cĩ quá nhiều spam email. Trong nhiều trƣờng hợp, ngƣời dùng cĩ thể vơ tình xĩa mất email quan trọng cùng với email spam.

- Một vài spam email cĩ chứa tệp tin đính kèm và nếu mở tệp đính kèm, máy

tính của ngƣời dùng cĩ thể bị nhiễm virus hoặc mã độc.

- Thƣ rác hiện nay thƣờng cĩ nội dung: quảng cáo thƣơng mại và dịch vụ, quấy nhiễu, phát tán virus và những nội dung khơng lành mạnh (khiêu dâm, chống phá chính trị…).

- Việc gửi thƣ rác làm cho ngƣời nhận phải mất thời gian và phải trả tiền cho nhà cung cấp dịch vụInternet ISP (Internet Service Provider) để đọc những bức thƣ khơng liên quan. Đơi khi những bức thƣ cĩ chứa virus cĩ thể phá hủy cả hệ thống dữ liệu trong máy tính. Ngồi ra, tài nguyên (đƣờng truyền, máy chủ) của ISP cũng

bị chiếm dụng nhiều khi gửi thƣ rác.

Một phần của tài liệu Nghiên cứu phân loại thư rác dựa trên kỹ thuật học máy naive bayes (Trang 27 - 28)

Tải bản đầy đủ (PDF)

(49 trang)