Xây dựng hệ thống quét thư rác tên môi trường phân tán
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊNKHOA CÔNG NGHỆ THÔNG TINBỘ MÔN MẠNG MÁY TÍNH – VIỄN THÔNGTRẦN KINH LÝ – PHẠM QUỐC MỸXÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁNLUẬN VĂN TỐT NGHIỆP CỬ NHÂN CNTTTP.HCM, 2013 TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊNKHOA CÔNG NGHỆ THÔNG TINBỘ MÔN MẠNG MÁY TÍNH – VIỄN THÔNGTRẦN KINH LÝ – 0612252PHẠM QUỐC MỸ - 0612271XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁNKHÓA LUẬN TỐT NGHIỆP CỬ NHÂN CNTTGIÁO VIÊN HƯỚNG DẪNGVC. CAO ĐĂNG TÂNThS. ĐÀO ANH TUẤNKHÓA 2006 – 2010 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN TpHCM, ngày … tháng … năm …Giáo viên hướng dẫnNHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Khóa luận đáp ứng yêu cầu của Khóa luận cử nhân CNTT. TpHCM, ngày … tháng … năm …Giáo viên phản biệnLỜI CẢM ƠN Chúng em xin bày tỏ lòng biết ơn chân thành nhất đến thầy Cao Đăng Tân và thầy Đào Anh Tuấn, hai thầy đã tận tâm hướng dẫn, giúp đỡ chúng em trong suốt thời gian thực hiện luận văn này.Chúng con xin gửi tất cả lòng biết ơn sâu sắc và sự kính trọng đến ông bà, cha mẹ và toàn thể gia đình, những người đã nuôi dạy chúng con trưởng thành đến ngày hôm nay. Chúng em cũng xin chân thành cảm ơn quý thầy cô trong Khoa Công nghệ thông tin, trường Đại học Khoa Học Tự Nhiên Tp.Hồ Chí Minh đã tận tình giảng dạy, hướng dẫn, giúp đỡ và tạo điều kiện cho chúng em thực hiện tốt luận văn này. Xin chân thành cảm ơn sự giúp đỡ, động viên và chỉ bảo rất nhiệt tình của các anh chị và của tất cả các bạn, những người đã giúp đỡ chúng em có đủ nghị lực và ý chí để hoàn thành luận văn này. Mặc dù đã cố gắng hết sức, song chắc chắn luận văn không tránh khỏi những thiếu sót. Chúng em rất mong nhận được sự thông cảm và chỉ bảo tận tình của quý thầy cô và các bạn.TP.HCM, 7/2010Nhóm sinh viên thực hiệnTrần Kinh Lý – Phạm Quốc Mỹ Khoa Công Nghệ Thông TinBộ môn Mạng máy tính – Viễn thôngĐỀ CƯƠNG CHI TIẾTTên đề tài: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁNGiáo viên hướng dẫn:GVC. Cao Đăng TânThS. Đào Anh TuấnThời gian thực hiện: từ 01/2010 đến 07/2010Sinh viên thực hiện: Trần Kinh Lý – 0612252Phạm Quốc Mỹ – 0612271 Loại đề tài: Xây dựng hệ thốngNội Dung Đề Tài: • Tìm hiểu các kỹ thuật quét thư rác.• Xây dựng hệ thống quét thư rác dựa trên các kỹ thuật thống kê và so khớp. • Môi trường triển khai: hệ thống xử lý phân tán.Kế hoạch thực hiện: Giai đoạn 1 : Từ 01/01/2010 đến 28/02/2010: tìm hiểu về thư rác và các kỹ thuật quét thư rác. o Tìm hiểu các đặc điểm thư rác : Trần Kinh Lýo Tìm hiểu các kỹ thuật quét thư rác : Phạm Quốc Mỹ Giai đoạn 2 : từ 01/03/2010 đến 30/04/2010: tìm hiểu và phát triển kỹ thuật quét thư rác dựa trên so khớp và thống kê. o Kỹ thuật thống kê : Phạm Quốc Mỹo Kỹ thuật so khớp : Trần Kinh Lý Giai đoạn 3: từ 01/05/2010 đến 31/05/2010: phân tích, thiết kế, cài đặt hệ thống quét thư rác trên môi trường phân tán. o Phân tích : Trần Kinh Lý, Phạm Quốc Mỹo Thiết kế : Trần Kinh Lý, Phạm Quốc Mỹo Cài đặt : Trần Kinh Lý, Phạm Quốc Mỹ Giai đoạn 4: từ 01/06/2010 đến 30/06/2010 Viết báo cáo. Xác nhận của GVHD Ngày……tháng……năm……SV Thực hiệnLỜI NÓI ĐẦUNgày nay, thư điện tử đã trở thành một công cụ đắc lực phục vụ cho nhu cầu trao đổi thông tin của các cơ quan, tổ chức, doanh nghiệp cũng như mỗi cá nhân. Tuy nhiên, thư điện tử cũng đang bị lợi dụng để phát tán thư rác, lây lan virus máy tính và lừa đảo trực tuyến, gây thiệt hại lớn cho người sử dụng. Thư rác là một trong những thách thức lớn nhất hiện nay mà khách hàng và các nhà cung cấp dịch vụ phải đối phó. Thư rác đã trở thành một hình thức quảng cáo chuyên nghiệp, phát tán virus, ăn cắp thông tin,… với nhiều thủ đoạn và mánh khóe cực kỳ tinh vi. Người dùng phải mất khá nhiều thời gian để xóa những thư “không mời mà đến”, nếu vô ý có thể bị nhiễm virus, trojan, spyware … và nặng nề hơn là mất những thông tin như thẻ tín dụng, tài khoản ngân hàng qua các thư rác dạng phishing. Thư rác không chỉ gây khó chịu và gây phiền nhiễu cho người dùng, nó còn gây ra mất mát năng suất, giảm băng thông khiến cho các công ty, tổ chức tổn thất rất nhiều tiền. Vì vậy, các công ty, tổ chức có sử dụng hệ thống thư điện tử riêng phải có biện pháp để ngăn chặn thư rác xâm nhập vào hệ thống của họ. Mặc dù có thể sẽ không ngăn chặn được tất cả thư rác nhưng chỉ cần ngăn chặn phần lớn nào đó cũng sẽ giúp giảm tác hại của thư rác.Tất nhiên, những kẻ gửi thư rác sẽ liên tục cải thiện chiến thuật của chúng, do đó, điều quan trọng là biện pháp ngăn chặn thư rác phải “học” cách thức thay đổi của thư rác theo thời gian để giúp việc ngăn chặn có hiệu quả. Và việc ngăn chặn thư rác phải được thực hiện nhanh nhất có thể để không làm ảnh hưởng đến hệ thống, công việc khác. Xuất phát từ các lý do trên, đề tài luận văn “XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁN” được thực hiện với mục đích: • Tìm hiểu thư rác và các kỹ thuật ngăn chặn thư rác. • Phát triển kỹ thuật quét thư rác thống kê và so khớp. • Đề xuất mô hình và cài đặt thử nghiệm hệ thống quét thư rác trên môi trường phân tán. Luận văn đã đạt được một số kết quả như độ chính xác phân loại thư rác trong thử nghiệm xấp xỉ 94%, hỗ trợ quét các tập tin đính kèm (txt,word, excel, powerpoint, pdf) và đưa hệ thống quét thư rác lên môi trường phân tán.Nội dung chính của luận văn được chia thành 5 chương như sau: Chương 1: Tổng quan về thư rác và các kỹ thuật phát hiện thư rácGiới thiệu khái quát về lịch sử, đặc điểm của thư rác và các kỹ thuật phát hiện thư rác đã có. Chương 2: Phát triển kỹ thuật quét thư rác dựa trên thống kê và so khớpMô tả cơ sở lý thuyết của hai kỹ thuật áp dụng trong hệ thống thực nghiệm là thống kê và so khớp, các thực nghiệm minh họa độ chính xác của từng kỹ thuật. Chương 3: Hệ thống thử nghiệmPhân tích, thiết kế hệ thống thử nghiệm cho luận văn. Chương 4: Cài đặt và thực nghiệmTiến hành cài đặt và thực nghiệm hệ thống thử nghiệm đã đề ra. Chương 5: Tổng kếtTóm tắt lại các vấn đề đã nghiên cứu và đề ra hướng phát triển trong tương lai. MỤC LỤCMỤC LỤC biểuDanh sách các hình10 [...]... cáo, thư ng mại chiếm đa số, đây có lẽ là định nghĩa gần đúng với ý nghĩa của thư rác nhất [4] Hình vẽ sau sẽ thể hiện rõ định nghĩa của thư rác: Tất cả thư điện tử Thư điện tử không mong muốn Thư rác Thư quảng cáo thư ng mại Hình 1.1 So sánh thư rác với các thư điện tử khác [3] Chương 3 Hệ thống thử nghiệm 1.1.3 Mục đích chính gửi thư rác Quảng cáo sản phẩm, dịch vụ, … của tổ chức, công ty thư ng... chứa các từ thư ng xuất hiện trong thư rác (kiếm tiền, giàu nhanh, chọn nhanh, ) Sự giống nhau ở kích thư c/ loại tập tin/ tên tập tin đính kèm thư rác ở các lần spam 1.1.5 Các kỹ thuật tạo thư rác Chương 3 Hệ thống thử nghiệm Chỉnh sửa phần header của thư rác: • Nhập địa chỉ của các người nhận thư rác vào trường “Bcc:” thay vì trường “To:” hoặc “Cc:” • Thể hiện ở trường “To:” địa chỉ thư điện tử không... trường “From:” • Định danh - ID của thư điện tử bị thiếu hoặc là ID giả • Trường “Bcc:” có tồn tại, vì ở các thư điện tử thông thư ng trường này thư ng không xuất hiện Chương 3 Hệ thống thử nghiệm • Trường “X-mailer” – là trường thể hiện tên phần mềm dùng để gửi thư điện tử, nếu trường này bao gồm tên của phần mềm gửi thư rác quen thuộc thì có thể xác định được là thư rác hay không • X-UIDL header: là...Chương 3 Hệ thống thử nghiệm Chương 3 Hệ thống thử nghiệm Chương 1 Tổng quan về thư rác và các kỹ thuật phát hiện thư rác 1.1 Giới thiệu về thư rác 1.1.1 Lịch sử Có thể chia lịch sử của thư rác thành 3 giai đoạn sau: 1.1.1.1 Giai đoạn thứ nhất – những năm đầu của thư rác Nhiều ý kiến cho rằng thư rác đầu tiên được phát tán trên mạng diện rộng là vào năm 1978, đó là... thư rác Chỉnh sửa phần nội dung của thư rác: • Gửi cùng một văn bản thư rác nhiều lần mà không thay đổi gì hết • Đảo một số đoạn trong văn bản thư rác cho lần gửi kế tiếp • Xóa bớt một số đoạn trong văn bản thư rác cho lần gửi kế tiếp • Thêm một số đoạn trong văn bản thư rác cho lần gửi kế tiếp • Thay đổi cách dùng từ nhưng ý nghĩa văn bản thư rác vẫn không đổi • Thêm các tag HTML vào văn bản thư rác. .. nhiều thư rác, tuy nhiên tỉ lệ false-positive (không phải là thư rác nhưng cho là thư rác) cũng sẽ tăng do các thư điện tử hợp lệ bị coi là thư rác cũng nhiều hơn Dựa vào Spame Score và một ngưỡng xác định thì các thông điệp được phân lớp thành thư rác, thư hợp lệ và thư chưa xác định Tuy nhiên cũng có ngoại lệ cho luật này: • Các thông điệp từ người gửi trong whitelist không bao giờ bị coi là thư rác. .. vụ thư điện tử lúc này chưa tiên tiến nên người phát tán thư rác (spammer) này phải đánh thủ công các địa chỉ thư điện tử muốn gửi và chỉ có khoảng 320 trong tổng số các địa chỉ thư điện tử mà spammer muốn gửi nhận được thư rác này trong lần phát tán đầu tiên Vào 1988 xuất hiện kiểu thư rác khác là thư rác lừa đảo (như lừa đảo làm việc từ thiện, lừa đảo về kiếm tiền) 1.1.1.2 Giai đoạn thứ hai – thư rác. .. rằng thư rác là những thư điện tử thư ng mại không được yêu cầu từ phía người nhận” - những thư này bao gồm các thư điện tử quảng cáo về các sản phẩm và thư điện tử lừa gạt Nhưng định nghĩa này cũng không thực sự chính xác, nó làm mọi người nghĩ rằng thư rác giống như là thư đáng bỏ đi (junk mail) Sau đó có ý kiến cho rằng thư rác là “số lượng lớn thư điện tử không yêu cầu” và trong số đó các thư điện... phần mềm Chương 3 Hệ thống thử nghiệm Đầu thập niên 1990, với sự phát triển của Internet mang đến vấn nạn là số lượng thư rác tăng lên nhanh chóng Lúc này các spammer dùng các phần mềm để tự động việc gửi thư điện tử đến một danh sách các địa chỉ Ví dụ về thư rác phát tán qua các phần mềm tự động là thư rác Jesus và thư rác Cantel và Siegel Vào 1995 Jeff Slaton – tự nhận mình là “vua thư rác , ông là... xác của thư rác (spam email), bởi vì thư rác mang tính cá nhân hóa nên khó mà nói lên được hết ý nghĩa của thư rác Nhiều ý kiến cho rằng thư rác là những thư điện tử (email) không mong muốn” Định nghĩa này cũng không thực sự chính xác, như một nhân viên nhận những thư điện tử về công việc từ sếp của họ, đây là những thư điện tử người nhân viên không mong muốn nhưng chúng không phải là thư rác Lại . tài: Xây dựng hệ thốngNội Dung Đề Tài: • Tìm hiểu các kỹ thuật quét thư rác. • Xây dựng hệ thống quét thư rác dựa trên các kỹ thuật thống kê và so khớp. • Môi. Khoa Công Nghệ Thông TinBộ môn Mạng máy tính – Viễn thôngĐỀ CƯƠNG CHI TIẾTTên đề tài: XÂY DỰNG HỆ THỐNG QUÉT THƯ RÁC TRÊN MÔI TRƯỜNG PHÂN TÁNGiáo viên