Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
2,1 MB
Nội dung
- 1 -
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Bùi Ngọc Lan
NGHIÊN CỨUMẠNGTHƯĐIỆNTỬ
VÀ ỨNGDỤNGTRONGLỌCTHƯRÁC
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI
Ngành: Công nghệ thông tin
Hà Nội - 2006
- 2 -
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Bùi Ngọc Lan
NGHIÊN CỨUMẠNGTHƯĐIỆNTỬ
VÀ ỨNGDỤNGTRONGLỌCTHƯRÁC
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QU
I
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: Tiến sĩ Trần Quang Anh
Cán bộ đồng hướng dẫn: Tiến sĩ Hà Quang Thụy
Hà Nội - 2006
- 3 -
L
L
Ờ
Ờ
I
I
C
C
Ả
Ả
M
M
Ơ
Ơ
N
N
Đầu tiên, em muốn gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ
Trần Quang Anh (Trường Đại học Thanh Hoa Trung Quốc) và Tiến sĩ Hà Quang Thụy
(Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội) đã tận tình chỉ bảo và hướng
dẫn em trong suốt quá trình thực hiện khoá luận này.
Em xin chân thành cám ơn các thầy lãnh đạo Viện CNTT - ĐHQGHN, anh
Nguyễn Việt Cường (Trường Đại h
ọc Công nghệ - ĐHQGHN) và anh Phan Bá Hùng
(Viện Công nghệ Thông tin - ĐHQGHN) đã giúp đỡ, tạo điều kiện thuận lợi để em
tiến hành có kết quả các thử nghiệm trên mail-server thực.
Em xin bày tỏ lời cảm ơn sâu sắc tới các thầy, cô trong trường Đại học Công
nghệ đã dạy dỗ và tận tình chỉ bảo cho em trong suốt quá trình học tập tại trường.
Em cũng muốn gửi lời cảm
ơn tới các thầy cô, anh chị và các bạn trong nhóm
xê-mi-na “Khai phá dữ liệu và khám phá tri thức” thuộc bộ môn Các hệ thống thông
tin, Trường Đại học Công nghệ đã ủng hộ và khuyến khích em trong quá trình nghiên
cứu và thực hiện khoá luận này.
Và lời cuối cùng, em xin gửi lời cảm ơn chân thành và biết ơn vô hạn tới bố, mẹ,
anh chị những người đã có công sinh thành, nuối nấng, dạy dỗ và luôn động viên,
khuyến khích em trong cuộc s
ống, trong học tập và làm việc.
Sinh viên
Bùi Ngọc Lan
- 4 -
Tóm tắt
Vấn đề thưráctừ lâu đã gây không ít phiền nhiễu cho người sử dụngthưđiệntử
và là vấn đề đau đầu của những người quản lý mạng. Có rất nhiều giải pháp chống thư
rác đã được đưa ra và áp dụngtrong thực tế. Tuy nhiên, các phương pháp này đều tỏ ra
chưa thực sự hiệu quả vàmang những nhược điểm cố hữu củ
a nó. Trongluận văn này,
trên cơ sở nghiêncứu cấu trúc và các tính chất đặc trương của mạngthưđiệntử (Email
Networks) từ đó đề xuất một phương pháp lọcthưrác mới dựa trên mạngthưđiện tử.
Khác với phương pháp lọcthưrác dựa trên mạngthưđiệntử trước đây [1], phương
pháp đưa ra đã khai thác được tính chất có h
ướng của đồ thị mạngthưđiệntửvà xem
xét đồ thị mạngthưđiệntử là đồ thị có trọng số để xây dựng một công thức tính độ
phân cụm (clustering coefficient) mới. Để kiểm chứng phương pháp đưa ra, khóa luận
thực hiện thí nghiệm trên log files của máy chủ e-mail thực của Đại học Quốc gia Hà
Nội. Kết quả thực nghiệm cho thấ
y được tính đúng đắn của phương pháp và phương
pháp này có thể khắc phục được nhiều nhược điểm cố hữu của các giải pháp trước đây.
- 5 -
Mục lục
L
L
Ờ
Ờ
I
I
C
C
Ả
Ả
M
M
Ơ
Ơ
N
N 3
MỞ ĐẦU 8
CHƯƠNG 1: TỔNG QUAN VỀ THƯRÁC 10
1.1 Khái niệm thưrác 10
1.1.1 Thưrác là gì ? 10
1.1.2 Các đặc điểm của thư rác. 11
1.1.3 Phân loại thưrác 12
1.1.4 Những thiệt hại do thưrác gây ra 13
1.2 Các giải pháp cho vấn đề lọcthưrác 16
1.2.1 Ban hành các bộ luật chống thưrác 16
1.2.2 Các phương pháp lọcthưrác trước đây 16
CHƯƠNG 2: KIẾN THỨC CƠ SỞ 26
2.1 Mạng phức hợp (Complex Networks) 26
2.1.1 Độ dài đường dẫn trung bình 30
2.1.2 Độ phân cụm 31
2.1.3 Độ phân bố bậc 31
2.2 Các mô hình của mạng phức hợp 33
2.2.1 Mạng cặp thông thường (Regular coupled networks) 33
2.2.2 Đồ thị ngẫu nhiên (Random Graphs) 34
2.2.3 Các mô hình Small-world 36
2.2.4 Các mô hình Scale-free 39
2.3 Mạng xã hội (Social Networks) 41
2.4 Mạngthưđiệntử (Email Networks) 43
2.4.1 Mạngthưđiệntử scale-free. 43
2.4.2 Tính chất Small-world của mạngthưđiện tử. 44
2.4.3 Mạngthưđiệntử là mạng có hướng 46
2.4.4 Sự lan rộng của virus trongmạngthưđiệntử 48
2.4.5 Mạngthưđiệntử khi bị spam tấn công 49
- 6 -
CHƯƠNG 3: ỨNGDỤNGMẠNGTHƯĐIỆNTỬTRONGLỌC
THƯ RÁC 50
3.2 Đề xuất phương pháp 51
3.3 Đặc điểm của phương pháp 53
CHƯƠNG 4: THỰC NGHIỆM TRÊN LOG FILES 55
4.1 Đặc điểm dữ liệu 55
4.2 Kết quả thực nghiệm và phân tích 57
4.3 Nhận xét 60
KếT LUậN 61
- 7 -
Bảng từ viết tắt
Từ hoặc cụm từ Viết tắt
Unsolicited Commercial Email UCE
Internet Service Provider ISP
Short Message Service SMS
Email Service Provider ESP
Realtime Black hole List RBL
Multiple Address Processing System MAPS
eXtensible Markup Language XML
Domain Name Server DNS
Sender Policy Framework SPF
- 8 -
MỞ ĐẦU
Ngày nay cùng với sự toàn cầu hóa việc kết nối thông tin, thưđiệntử (Email)
đã trở thành một phần quan trọngtrong đời sống vàtrong cả các hoạt động kinh doanh
thương mại. Thưđiệntử cho phép tiết kiệm thời gian và khắc phục mọi vấn đề về
khoảng cách địa lí, về chi phí trong trao đổi thông tin liên lạc. Chính những thuận tiện
trong trao đổi thưđiệntử lạ
i tạo ra một số sơ hở để cho các loại thư không mong muốn
(thư rác: spam mail) hoạt động gây phiền toái cho người dùng. Trong một vài năm gần
đây, những thưđiệntử không mong muốn như vậy phát triển và gây ra không ít thiệt
hại cho người dùng nói riêng và cho nền kinh tế - xã hội nói chung. Theo nhiều bản
thống kê [10,15], thưrác đã chiếm tới ¾ tổng số thưđiệntử lưu thông trên toàn thế
gi
ới. Có không ít người dùng đã hạn chế sử dụngthưđiệntử như một phương tiện liên
lạc, và điều đó đã gây ra sự trở ngại đáng kể cho liên lạc giữa các người dùng cũng
như hạn chế việc phát sinh lợi nhuận chính đáng của nền kinh tế nhờ phương tiện liên
lạc này.
Hiện nay, thưrác đang là một trong những vấ
n đề nhức nhối của xã hội.
Nhiều phương pháp, công cụ lọcthưrác đã được đề xuất, tuy nhiên nhìn chung các
công cụ lọcthưrác hiện nay vẫn tỏ ra chưa thực sự hiệu quả. Chính vì lý do đó, nhiều
hướng tiếp cận lọcthưrác mới đã được đề xuất [39], kể cả các hướng tiếp cận kết hợp
các phương pháp khác nhau, trong đó hướng tiế
p cận theo mạng xã hội là một trong
các hướng nổi bật nhất. Ý thức được điều này, hướng nghiêncứu về các phương pháp
lọc thư rác, tập trung theo hướng tiếp cận mạngthưđiệntử đề tài của khóa luận với tên
gọi "Nghiên cứumạngthưđiệntửvàứngdụngtronglọcthư rác".
Khóa luận được tổ chức thành 4 chương nh
ư sau:
Chương 1 giới thiệu tổng quan về thưrácvà một số hướng tiếp cận điển hình
trước đây trong việc lọcthư rác.
Chương 2 trình bày về một số tính chất quan trọng của mạng phức hợp, mạng
xã hội, mạngthưđiện tử. Đây là cơ sở kiến thức để phát triển nội dung của khóa luận
trong các chương sau.
Chương 3 trình bày một phương pháp mới ứngdụng các tính chất của mạng
thư điệntử vào vấn đề lọcthưrác thông qua việc tính hạng phân cụm của các địa chỉ
thư. Các nội dung đề xuất được trình bày chi tiết trong chương này.
- 9 -
Chương 4 trình bày về thực nghiệm tiến hành với logs file của máy chủ email
tại Đại học Quốc gia Hà Nội. Kết quả thực nghiệm cho thấy địa chỉ thư với độ phân
cụm thấp có khả năng cao là địa chỉ thưrác .
Phần kết luận tổng kết các kết quả chủ yếu của khóa luậnvà phương hướng
nghiên cứu tiếp theo để phát triển, c
ải tiến phương pháp mạngthưđiệntử được đề xuất.
Cho dù đã cố gắng song không thể tránh khỏi những sai sót, em rất mong
được sự góp ý của thầy cô và các bạn.
- 10 -
Chương 1
T
T
Ổ
Ổ
N
N
G
G
Q
Q
U
U
A
A
N
N
V
V
Ề
Ề
T
T
H
H
Ư
Ư
R
R
Á
Á
C
C
Từ lâu, thưđiệntử (Email) đã trở thành một ứngdụng không thể
thiếu khi Internet và công nghệ mạng phát triển. Đây là điều mà thực tế đã
chứng minh qua những đóng góp của ứngdụng này trong nhiều lĩnh vực
như kinh doanh, thương mại, viễn thông và các dịch vụ cá nhân. Tuy nhiên
trong những năm gần đây, một hình thức mới của thưđiệntử
đã xuất hiện
với số lượng lớn gây phiền hà cho người nhận và những thiệt hại không
nhỏ cho nền kinh tế gọi là thư rác. Chương này sẽ khái quát các vấn đề về
khái niệm thư rác, ảnh hưởng của thưráctrong cuộc sống của chúng ta và
các phương pháp ngăn chặn thư rác.
1.1 Khái niệm thưrác
1.1.1 Thưrác là gì ?
Thư rác (spam) là một loại thư được gửi với số lượng lớn, theo chủ ý của
người gửi, hoàn toàn không có sự liên hệ gì với người nhận.
Đứng trên quan điểm của người gửi, đó là một hình thức giửi thư theo số
lượng lớn (nên gọi là bulk email) cho một danh sách địa chỉ chọn lọc ra từ các diễn
đàn (Usenet discussion group), các danh sách thư (mailing list)… Hiện nay cũng có
nhiều công ty mà công việc kinh doanh chính là nhận g
ửi thưrác cho khách hàng của
họ.
Về phía người nhận, đa phần các bức thư này không có giá trị và thật sự
không được mong muốn, chúng bị coi như một thứrác rưởi, tạp nham (xuất phát từ
cụm junk email). Phần lớn các thư này có nội dung quảng cáo thương mại cho một loại
sản phẩm hay dịch vụ nào đó, những bức thư này được gọi là UCE (Unsolicited
Commercial Email).
Thư rác hiện nay thường có n
ội dung: quảng cáo thương mại và dịch vụ, quấy
nhiễu, phát tán virus và những nội dung không lành mạnh (khiêu dâm, chống phá
chính trị…).
[...]... chuẩn trong thời gian tới, trong đó sẽ có một số điều khoản quy định về thưrác được đưa ra xem xét 1.2.2 Các phương pháp lọcthưrác trước đây Vấn đề thưrác là vấn đề gây nhức nhối trong xã hội trong những năm gần đây Nhiều nhà khoa học và nhiều công trình nghiêncứu về phương pháp lọcthưrác đã được đầu tưvà tiến hành từ khá lâu Để đánh giá hiệu quả của một công cụ lọcthưrác người ta thư ng... tố đó trongthưrác - Mức độ thư ng xuyên xuất hiện của từ tố đó trongthư bình thư ng - Số lượng thưrác mà bộ lọc đã được học - Số lượng thư bình thư ng bộ lọc đã được học Khi phân tích một thưrác đến, nội dung của thư này cũng được tách ra thành các từ tố, tra giá trị ứng với từ tố này có trong cơ sở dữ liệu từ đó tính được xác suất tổng hợp xem thư đó có phải là thưrác không Giá trị này thư ng... luật lọcthư bảo đảm tính an toàn trongmạng Những người dùng riêng biệt không phải chịu trách nhiệm cũng như không phải lo lắng đến sự quản lý thư rác, giải phóng họ để họ có thể yên tâm trong công việc với trao đổi thưđiệntử Nhược điểm: Thư ng yêu cầu nhiều tới sự duy trì và cầm có một người quản trị mạng có khả năng và kinh nghiệm để quản lý bộ lọcthưrác này Thư ng đắt hơn Phương pháp lọc dựa... tên gửi thưrácvà những bộ lọc làm cho siêu bộ lọcthưrác của hôm nay có thể trở thành cái lỗi thời của ngày mai Bộ lọcthưrác mạnh nhất sẽ là bộ lọc sử dụng kết hợp nhiều bộ lọc khác, hoặc tất cả các thuộc tính đã liệu kê ở trên đây - 25 - Chương 2 KIẾN THỨC CƠ SỞ Bản chất của việc lọcthưrác dựa trên phương pháp mạng xã hội là việc áp dụng các tính chất của đồ thị của mạng, cấu trúc của mạng để... gửi thưrácthư ng giả dạng địa chỉ của một người dùng bình thư ng trong một máy chủ email nào đó một cách bất hợp pháp hoặc dùng một địa chỉ ảo nào đó để gửi thưrác 1.1.3 Phân loại thưrác Việc phân loại thưrác rất quan trọng không chỉ trong lĩnh vực tạo những bộ lọcthưrác phù hợp cho hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chống thưrác thích hợp Có rất nhiều cách phân loại thư rác. .. 0 và False Negatives bằng 0 Điều này dường như là không thể Tất cả những công cụ lọc có giá trị ngày nay thư ng sử dụng một trong số những phương pháp hoặc kết hợp của các phương pháp sau: Phương pháp lọc theo từ khóa Phương pháp lọcthưrác theo từ khóa là một phương pháp truyền thống trong việc lọcthưrác Người ta dựa vào những từ hay cụm từ có trong đầu đề của thư (subject) và nội dung của thư. .. Giả mạo thư điện tử - là việc giả mạo địa chỉ thưđiệntử của một công ty hoặc của một người khác để khiến người sử dụng tin tưởng và mở thư - đang là một trong những thử thách lớn nhất mà cộng đồng sử dụng Internet và các kỹ thuật viên chống thưrác hiện đang phải đối mặt Nếu không có sự thẩm định quyền, xác nhận và khả năng truy tìm danh tính của người gửi, các hãng cung cấp dịch vụ thư điện tử không... Tỷ lệ thư thường bị lọc nhầm thành thưrác - 16 - o False Negative – Tỷ lệ thưrác bị lọc nhầm thành thư thường Trong hai lỗi trên thì lỗi False Positive là loại lỗi cần tránh nhất, người dùngthư ng không chấp nhận lỗi này Các công cụ lọcthưrácthư ng được tính toán sao cho độ đo False Positives và False Negatives là nhỏ nhất Tuy nhiên, lỗi False Positives có phần được yêu tiên hơn Một bộ lọc lý... phát tán thưrác - 12 - Tính tới thời điểm hiện tại, thưrác có thể bị gửi thông qua những hình thức thư điện tử, nhóm thảo luận (newsgroups), điện thoại di động (Short Message Service - SMS) và các dịch vụ gửi tin nhắn trên mạng (như Yahoo Messenger, Windows Messenger ) 2> Dựa vào quan hệ với người gửi thưrác Các mối quan hệ với người gửi thưrác bao gồm người lạ mặt, bạn bè, người quen và các dịch... khỏi danh sách email nếu muốn Thêm vào đó, những công ty hoặc người gửi thưrác phải hiểu và nắm vững chính sách quản lý thư rác/ quảng cáo của mỗi ISP mà họ gặp phải Ở Việt Nam, chúng ta chỉ mới công nhận tính chất pháp lý của thưđiệntửtrong bộ Luật Hình sự, nhưng chưa có luật quy định và nghiêm cấm các hình thức gửi thưrác Theo dự kiến, Pháp lệnh Thư ng mại điệntửvà các dịch vụ liên quan đang được . hướng tiếp cận mạng thư điện tử đề tài của khóa luận với tên
gọi " ;Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác& quot;.
Khóa luận được tổ. của mạng thư điện tử. 44
2.4.3 Mạng thư điện tử là mạng có hướng 46
2.4.4 Sự lan rộng của virus trong mạng thư điện tử 48
2.4.5 Mạng thư điện tử khi bị