Mơ hình và nguyên lý hoạt động của hệ thống lọc nội dung Mail

Một phần của tài liệu Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định (Trang 31 - 81)

2.2.1. Mơ hình hệ thống lọc mail

Một trong những bƣớc quan trọng khi xây dựng hệ thống lọc thƣ rác là quyết định vị trí của hệ thống trong cả chu trình trao đổi thƣ điện tử. Việc xác định vị trí của bộ lọc thƣ cĩ ảnh hƣởng tới kiến trúc bộ lọc, các yêu cầu về tái huấn luyện, tốc độ xử lý và nhiều vấn đề khác.

Thơng thƣờng, hệ thống lọc thƣ cĩ thể tích hợp vào hệ thống gửi và nhận thƣ điện tử theo một trong các cách sau.

MAIL CLIENT BỘ LỌC MAIL SERVER THƢ MỚI THƢ MỚI PHẢN HỒI (b) MAIL CLIENT BỘ LỌC MAIL SERVER THƢ MỚI (a)

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

Hình 2.4: Các phương án bộ trí hệ thống lọc thư

Theo cách bố trí trên hình 2.4, bộ lọc thƣ đƣợc tích hợp vào chƣơng trình nhận thƣ điện tử (mail client) nhƣ Outlook Express và chạy trên máy khách (client) của ngƣời sử dụng. Cách bố trí này thuận tiện cho việc xây dựng bộ lọc thƣ đƣợc cá nhân hố, cĩ thể phân biệt thƣ rác – thƣ thƣờng theo tiêu chí đánh giá riêng của từng ngƣời sử dụng thƣ điện tử. Ngồi ra, do chạy trên máy khách nên bộ lọc thƣ khơng gây quá tải đối với máy chủ thƣ điện tử. Tuy nhiên, mục tiêu của đề tài là xây dựng bộ lọc cho phía client nên chúng tơi khơng trình bầy về phƣơng án này trong các phần sau của báo cáoi.

Trên hình 2.4 là cách bố trí bộ lọc thƣ dƣới dạng một proxy. Bộ lọc thƣ sẽ đĩng vai trị trạm trung chuyển thƣ bằng cách nhận các gĩi tin đƣợc gửi theo thức thƣ điện tử vào các cổng dành cho thƣ. Bộ lọc cĩ thể chạy trên máy chủ hoặc máy khách nhƣng thƣờng bộ lọc thƣ nhƣ vậy đƣợc cài đặt chạy trên máy khách. Cách cấu hình này cĩ ƣu điểm là mềm dẻo, cĩ thể kết hợp nhiều bộ lọc khác nhau bằng nếu gắn đầu ra của bộ này với đầu vào của bộ khác và trên thực tế cĩ một số chƣơng trình lọc thƣ rác sử dụng phƣơng án bố trí này. Tuy nhiên, việc sử dụng kết hợp bộ lọc thƣ với những chƣơng trình proxy khác (nhƣ trình chống virus) thƣờng gây mâu thuẫn khi cài đặt và địi hỏi ngƣời sử dụng phải cĩ những hiểu biết nhất định.

Hệ thống do chúng tơi xây dựng sử dụng phƣơng án bố trí nhƣ minh hoạ trên hình 2.4abộ lọc thƣ đƣợc tích hợp với phần mềm duyệt mail ở máy client, nĩ làm nhiệm vụ kiểm tra các thƣ mới gửi đến và sau đĩ phân loại, đánh dấu nếu thƣ gửi

MAIL SERVER BỘ LỌC MAIL CLIENT THƢ MỚI PHẢN HỒI (c)

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ đến cĩ các đặc điểm trung với nhận diện của thƣ rác mà phần mềm đã đƣợc huấn luyện và thiết lập.

Hệ thống đƣợc xây dựng để cĩ thể tích hợp với trình duyệt mail Outlook. Đây là phần mềm duyệt thƣ điện tử offline khá thơng dụng tại Việt nam và cung cấp giao diện lập trình thích hợp cho việc kết nối với hệ thống lọc thƣ.

2.2.2. Kiến trúc tổng quan của hệ thống lọc mail

Phần quan trọng nhất của hệ thống bao gồm module huấn luyện và module lọc. Hai mơđun này kết hợp chặt chẽ với nhau, đầu ra của mơđun huấn luyện là các tham số tính tốn đƣợc trong thời gian huấn luyện (các xác suất điều kiện đối với học Bayes đơn giản) và đƣợc lƣu trong K.Base. Mơđun lọc thƣ sẽ đọc tham số từ K.Base và sử dụng để phân loại thƣ mới nhận đƣợc. Việc tách riêng mơđun huấn luyện khỏi mơđun phân loại làm tăng độ mềm dẻo khi cài đặt và sử dụng hệ thống. Về nguyên tắc, cĩ thể tách riêng mơđun huấn luyện và chạy trên máy khơng cĩ mail server để giảm tải cho máy chủ.

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Giao diện ngƣời dùng Gồm 2 IDE forms Phần lõi hệ thống K. Base bao gồm cơ sở dữ liệu chứa tham số các bộ phân loại sau khi đƣợc huấn luyện. Giao diện với mail server Bộ giao tiếp với Exchange

server thơng qua dịch vụ SMTP

Mail server

Hình 2.5: Kiến trúc chung của hệ thống lọc thư

Với kiến trúc thể hiện trên hình 2.5, luồng dữ liệu luân chuyển giữa các thành phần bộ lọc đƣợc mơ tả nhƣ sau:

Khi một bức thƣ đƣợc gửi đến Mail server exchange, nhờ chứa năng bẫy sự kiện Incoming mail của SMTP thì bức thƣ đĩ đƣợc đƣa đến Bộ phân loại Tiếng Anh, tiếng Việt hoặc đƣa thẳng đến Bộ phân loại thƣ rác (phụ thuộc vào tùy chọn của ngƣời dùng).

Huấn luyện Tuỳ chọn

K. Base Bộ phân loại thƣ tiếng Anh, tiếng Việt Bộ phân loại thƣ rác Dịch vụ SMTP Exchange Server Giao diện đăng kí với dịch vụ

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Giả sử sau khi đƣa vào bộ phân loại Tiếng Anh, tiếng Việt, bức thƣ đƣợc chuyển cho bộ phân loại thƣ rác. Tại đây, nhờ quá trình tính tốn theo Naive Bayes, nĩ sẽ đƣợc gán nhãn là thƣ rác [Possible Spam] hoặc khơng gán nhãn nếu đƣợc xác định là thƣ thƣờng. Sau đĩ, thƣ đƣợc gửi đến Exchange server nhờ dịch vụ SMTP. Cuối cùng, bức thƣ đã sẵn sàng cho Mail Client lấy về qua giao thức POP3.

2.2.3. Các kỹ thuật lọc nội dung thơng tin qua mail

Phƣơng pháp lọc nội dung để phân loại thƣ rác đã và đang đƣợc quan tâm, nghiên cứu và ứng dụng nhiều nhất. Đặc điểm chung của phƣơng pháp này là dựa vào nội dung và chủ đề bức thƣ để phân biệt thƣ rác và thƣ hợp pháp. Dƣới đây là các phƣơng pháp lọc nội dung thơng dụng.

2.2.3.1. Lọc thư rác dựa vào các dấu hiệu nhận biết

Đầu tiên, ngƣời ta tạo ra các địa chỉ email để bẫy thƣ rác, gọi là các honeypots. Các địa chỉ này đƣợc tạo ra một cách cố ý sao cho khơng bao giờ thƣ bình thƣờng đƣợc gửi tới. Do đĩ, nếu cĩ thƣ gửi vào các địa chỉ bẫy thì ta cĩ thể chắc chắn đĩ là thƣ rác.

Sau đĩ hệ thống sẽ so sánh thƣ mới đến với thƣ đã bẫy đƣợc. Cách thức so sánh là dựa trên dấu hiệu nhận biết. Nếu hai bức thƣ cĩ các dấu hiện giống nhau thì bức thƣ mới tới là thƣ rác.

Phƣơng pháp thƣờng dùng để so sánh hai bức thƣ nhƣ trên là gán cho mỗi ký tự một số nào đĩ, tiếp theo cộng dồn các số đã gán lại với nhau. Hai bức thƣ sẽ đƣợc coi là giống nhau nếu cĩ tổng các số đã gán bằng nhau.

Ƣu điểm của phƣơng pháp lọc thƣ này là đơn giản, nhanh và khơng lọc nhầm thƣ thƣờng thành thƣ rác. Tuy nhiên, những ngƣời gửi thƣ rác lại dễ dàng đánh bại hệ thống này bằng cách sinh ngẫu nhiên các mẩu thƣ rác sau đĩ gộp lại thành một bức thƣ hồn chỉnh. Khi đĩ các “dấu hiệu“ của các bức thƣ đƣợc gửi sẽ khác nhau và thƣ rác sẽ lọt qua đƣợc hệ thống lọc. Bởi vậy tỉ lệ lọc thƣ rác của hệ thống này khơng bao giờ vƣợt ngƣỡng 70%.

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Do khả năng lọc thƣ chính xác (khơng chặn nhầm thƣ hợp pháp) và dễ triển khai nên hệ thống này thƣờng đƣợc dùng để lọc thƣ tại phía server.

2.2.3.2. Lọc thư rác thơng qua bỏ phiếu trên các danh sách trắng

Hoạt động của bộ lọc dạng này là tìm xem các từ ở trong danh sách đen/trắng cĩ nằm trong bức thƣ mới tới hay khơng và đếm số lần xuất hiện của chúng. Nếu số lƣợng từ thuộc danh sách trắng nhiều hơn (rất nhiều) số từ đếm đƣợc thuộc danh sách đen thì bức thƣ đĩ là thƣ hợp pháp, ngƣợc lại sẽ là thƣ rác.

Các đặc trƣng của bộ lọc:

Khơng cĩ biến đổi dữ liệu ban đầu. Dữ liệu ra giống nhƣ dữ liệu vào Biểu thức chính quy để tách từ ra khỏi thƣ là: [[:graph:]]+

Việc chọn đặc trƣng chỉ đơn giản là các từ đơn

Cơ sở dữ liệu về đặc trƣng chỉ đƣợc nạp khi các từ nằm trong danh sách đen hoặc danh sách trắng, nếu là nằm trong dánh sách trắng thì đặt là +1, nếu thuộc danh sách đen sẽ đặt là -1, tất cả các trƣờng hợp khác đặt giá trị 0.0.

Luật tổ hợp là “Điểm mới = Điểm cũ + trọng số của đặc trƣng”

Ngƣỡng lọc cuối cùng là: “Nếu điểm mới > 0 thì là thƣ hợp pháp”, “Nếu điểm mới < 0 thì là thƣ rác”. Khơng khẳng định trong các trƣờng hợp khác.

Nhƣ vậy bộ lọc thực hiện chấm điểm các từ trong danh sách đen và các từ trong danh sách trắng bằng nhau. Một số cải biên của bộ lọc này là đánh trọng số cho các từ trong danh sách đen cao hơn trong danh sách trắng và ngƣợc lại.

2.2.3.3. Lọc thư sử dụng phương pháp heuristic

Cách thức hoạt động của phƣơng pháp này là con ngƣời sẽ xác định những đặc trƣng (từ ngữ) nào là của thƣ rác, đặc trƣng nào là của thƣ hợp pháp, sau đĩ viết chƣơng trình để phát hiện những đặc trƣng đĩ trong bức thƣ gửi tới.

Ngƣời ta đánh trọng số cho các đặc trƣng trên (cĩ thể thực hiện bằng tay hoặc sử dụng thuật tốn) và lập một ngƣỡng để phân loại thƣ. Bức thƣ sẽ đƣợc coi là thƣ rác nếu cĩ các đặc trƣng với trọng số vƣợt ngƣỡng quy định.

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Hiệu suất chặn thƣ rác của các chƣơng trình sử dụng phƣơng pháp này rất khác nhau. Vì mỗi chƣơng trình sử dụng các luật lọc khác nhau. Luật đơn giản nhất là nếu bức thƣ nào chứa các đặc trƣng của thƣ rác thì đĩ là thƣ rác. Điều này sẽ làm cho bộ lọc chặn mất rất nhiều thƣ hợp pháp.

Một số chƣơng trình lọc thƣ theo phƣơng pháp này nhƣ hệ thống chấm điểm cho email sử dụng phƣơng pháp hueristic (Heuristic Message Scoring System) của mail server MDaemon . Hệ thống chấm điểm email này đúc kết trên kinh nghiệm là việc kiểm tra, lọc email sử dụng một số lƣợng lớn các luật theo trật tự để máy tính chấm điểm. Điểm số này sẽ đƣợc sử dụng để quyết định một email cĩ phái là spam email hay khơng.... Ngồi cịn một số các bộ lọc thƣ rác khác nhƣ SpamAssassin, hoặc SpamGuard của Yahoo.

Phƣơng pháp này cĩ ƣu điểm là dễ cài đặt và hiệu suất chặn thƣ rác khá cao (nếu xây dựng đƣợc các luật tốt) khoảng 90-95%. Nhƣợc điểm chính của phƣơng pháp này là tỉ lệ chặn nhầm thƣ hợp pháp cũng rất lớn (khoảng 0.5%). Ngồi ra phƣơng pháp này cũng khơng linh hoạt vì các luật đƣợc xây dựng luơn luơn chậm hơn rất nhiều so với sự biến đổi của từ ngữ trong thƣ rác.

Ngƣời ta thƣờng sử dụng phƣơng pháp này cho các bộ lọc thƣ ở mail server.

2.2.3.4. Lọc thư sử dụng phương pháp xác suất thống kê và học máy

Phƣơng thức hoạt động của phƣơng pháp này là, đầu tiên con ngƣời sẽ phân loại các bức thƣ đã cĩ thành hai tập hợp, thƣ rác và thƣ hợp pháp. Một thuật tốn đƣợc sử dụng để trích chọn và đánh trọng số cho các đặc trƣng của thƣ rác theo một cách nào đĩ (thƣờng sử dụng cơng thức xác suất). Sau khi trích trọn đặc trƣng, hai tập thƣ rác và thƣ hợp pháp sẽ đƣợc sử dụng để huấn luyện một bộ phân loại tự động. Quá trình huấn luyện dựa trên một phƣơng pháp học máy.

Khi một bức thƣ mới tới nĩ sẽ đƣợc tách thành các đặc trƣng (từ hoặc cụm từ) rồi đƣợc so sánh với các đặc trƣng đã cĩ để tìm ra trọng số. Từ tổ hợp trọng số của các đặc trƣng sẽ đánh giá đƣợc bức thƣ đĩ cĩ phải là thƣ rác hay khơng bằng

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ cách so sánh với một ngƣỡng do ngƣời dùng định ra. Cách tổ hợp đặc trƣng và phân loại thƣ rác cĩ thể khác nhau và phụ thuộc vào thuật tốn phân loại cụ thể.

Hình 2.6: Mơ hình tổng quát lọc thư rác Tiếng Việt

Tỉ lệ chặn thƣ rác của bộ lọc sử dụng phƣơng pháp này rất cao, khoảng 99%. Chƣơng trình SpamProbe cĩ thể đạt tỉ lệ lọc thƣ rác tới 99.9%. Các phƣơng pháp học máy và xác suất thống kê cho phép phân loại cả những thƣ rác chƣa từng xuất hiện trƣớc đĩ (chƣa cĩ trong dữ liệu huấn luyện).

Một ƣu điểm khác nữa của phƣơng pháp này là tỉ lệ chặn thƣ hợp pháp rất thấp, thấp hơn rất nhiều so với phƣơng pháp heuristic.

Nhƣợc điểm của của phƣơng pháp học máy là phải cĩ một tập hợp các thƣ để huấn luyện. Hiệu suất của bộ lọc sẽ phụ thuộc rất nhiều vào tập huấn luyện ban đầu đĩ. Tập dữ liệu càng lớn và càng chứa nhiều dạng thƣ khác nhau sẽ cho độ chính xác phân loại càng cao về sau.

Hiện nay, phƣơng pháp lọc thƣ sử dụng học máy và xác suất thống kê đƣợc coi là một phƣơng pháp triển vọng với nhiều ứng dụng thƣơng mại nhƣ tại Hotmail, Google, Yahoo. Phƣơng pháp này sẽ đƣợc nghiên cứu chi tiết và trình bày trong các chƣơng tiếp theo.

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/

2.2.4. Kỹ thuật lọc Spam

Spam gây ra rất nhiều tác hại, do vậy việc phịng chống và ngăn chặn các spam là cần thiết. Hiện cĩ nhiều cơng ty phần mềm cung cấp giải pháp chống spam, mỗi dịng sản phẩm cĩ những tính năng và các ƣu nhƣợc điểm riêng, nhƣng hầu hết các sản phẩm đĩ đều hoạt động dựa vào một số nguyên lý sau:

2.2.4.1. Sử dụng DNS blacklist:

Phƣơng pháp sử dụng DNS black list sẽ chặn các email đến từ các địa chỉ nằm trong danh sách DNS blacklist. Cĩ hai loại danh sách DNS Blacklist thƣờng đƣợc sử dụng, đĩ là:

Danh sách các miền gửi spam đã biết, danh sách các miền này đƣợc liệt kê và cập nhật tại địa chỉ http://spamhaus.org/sbl.

Danh sách các máy chủ email cho phép hoặc bị lợi dụng thực hiện việc chuyển tiếp spam đƣợc gửi đi từ spammer. Danh sách này đƣợc liệt kê và cập nhật thƣờng xuyên tại địa chỉ http://www.ordb.org. Cơ sở dữ liệu Open Relay Database này đƣợc duy trì bởi ORDB.org là một tổ chức phi lợi nhuận.

Khi một email đƣợc gửi đi, nĩ sẽ đi qua một số SMTP server trƣớc khi chuyển tới địa chỉ ngƣời nhận. Địa chỉ IP của các SMTP server mà email đĩ đã chuyển qua đƣợc ghi trong phần header của email. Các chƣơng trình chống spam sẽ kiểm tra tất cả các địa chỉ IP đã đƣợc tìm thấy trong phần header của email đĩ sau đĩ so sánh với cơ sở dữ liệu DNS Blacklist đã biết. Nếu địa chỉ IP tìm thấy trong phần này cĩ trong cơ sở dữ liệu về các DNS Blacklist, nĩ sẽ bị coi là spam, cịn nếu khơng, email đĩ sẽ đƣợc coi là một email hợp lệ.

Các DNSBL đầu tiên là Blackhole List thời gian thực (RBL), đƣợc tạo ra vào năm 1997, ban đầu nĩ đƣợc coi nhƣ một nguồn cấp dữ liệu BGP bởi Paul Vixie , và sau đĩ là một hệ thống DNSBL xây dựng bởi Eric Ziegast nhƣ một phần của hệ thống phịng chống lạm dụng thƣ (MAPS), Dave Rand tại AboveNet là thuê bao đầu tiên của nĩ. Phiên bản đầu tiên của RBL khơng đƣợc cơng bố nhƣ một DNSBL, mà là một danh sách các mạng truyền qua BGP để định tuyến và các nhà khai thác

Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ mạng cĩ thể cho phép tất cả các máy sử dụng giao thức TCP/IP để gửi thƣ. Ngƣời phát minh ra kỹ thuật này sau đĩ thƣờng đƣợc gọi là DNSBL là Eric Ziegast.

Thuật ngữ "hố đen" đề cập đến một lỗ đen kết nối mạng, một biểu hiện cho một liên kết trên một mạng lƣới mà nĩ giảm lƣu lƣợng truy cập thay vì chuyển tiếp nhƣ bình thƣờng. Mục đích của RBL là các trang web sử dụng nĩ sẽ từ chối lƣu lƣợng truy cập từ các trang web cĩ hỗ trợ thƣ rác - cho dù bằng cách chủ động gửi thƣ rác, hoặc bằng cách khác.Trƣớc khi một địa chỉ sẽ đƣợc liệt kê trên các RBL, tình nguyện viên và nhân viên MAPS sẽ cố gắng nhiều lần để liên lạc với ngƣời quản lý trang web đĩ và thơng báo các vấn đề của nĩ cần sửa chữa. Nỗ lực nhƣ vậy đƣợc coi là rất quan trọng trƣớc khi blackholing tất cả các lƣu lƣợng mạng, nhƣng nĩ cũng cĩ nghĩa là các spamer và các ISP hỗ trợ thƣ rác cĩ thể trì hỗn đƣợc đặt

Một phần của tài liệu Nghiên cứu phương pháp lọc Spam và ứng dụng trong bảo mật hệ thống thư điện tử tại sở thông tin và truyền thông tỉnh Nam Định (Trang 31 - 81)

Tải bản đầy đủ (PDF)

(81 trang)