Tóm tắt luận văn Thạc sỹ ngành Truyền dữ liệu và mạng máy tính: Nghiên cứu xây dựng hệ thống lọc nội dung thư điện tử gửi theo giao thức SMTP
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - Đinh Quang Định NGHIÊN CỨU XÂY DỰNG HỆ THỐNG LỌC NỘI DUNG THƢ ĐIỆN TỬ GỬI THEO GIAO THỨC SMTP Chuyên ngành: Truyền liệu mạng máy tính Mã số: 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Nguyễn Thành Phúc Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng HÀ NỘI - 2013 MỞ ĐẦU Sự phát triển không ngừng khoa học công nghệ, đặc biệt tốc độ bùng phát mạnh mẽ công nghệ thông tin khiến cho Internet trở thành cơng cụ hữu ích khơng thể thiếu đời sống Không kho tài ngun thơng tin khổng lồ, Internet cịn cung cấp cho người sử dụng công cụ khai thác thơng tin tiện lợi, nhanh chóng đại Một số dịch vụ mạng người dùng sử dụng rộng rãi dịch vụ thư điện tử (e-Mail) Dịch vụ cho phép người sử dụng trao đổi thư tín cách dễ dàng, đồng thời phổ biến kiến thức, thông tin, thông báo nội dung sách vấn đề quan, tổ chức… Với tính chất dễ sử dụng, không phụ thuộc vào không gian thời gian, thư điện tử trở thành phương tiện trao đổi thông tin quan trọng nhiều người Cùng với phát triển tiện lợi Internet, việc lấy cắp thông tin, thâm nhập bất hợp pháp, phá hoại thông qua Internet gia tăng số lượng, loại hình kỹ thuật Bên cạnh đó, đối tượng có tư tưởng trị cực đoan, lực phản động nước nước tận dụng triệt để khả mạng Internet để phục vụ cho mục đích tuyên truyền, phát tán tài liệu phản động thực hành vi phản động khác nhằm chống phá nhà nước cộng hòa xã hội chủ nghĩa Việt Nam Do đó, việc đấu tranh chống hoạt động sử dụng dịch vụ mạng phục vụ cho mục đích xấu trở thành yêu cầu cấp thiết lực lượng Công an Trước nhu cầu thực tế đó, tơi nghiên cứu mạnh dạn chọn đề tài: “Nghiên cứu xây dựng hệ thống lọc nội dung thư điện tử gửi theo giao thức SMTP” làm báo cáo tốt nghiệp nhằm đề xuất giải pháp kiểm soát nội dung thư điện tử gửi mạng Internet Mục tiêu đề tài Xây dựng hệ thống lọc nhằm tìm thư gửi mạng Internet theo giao thức SMTP có nội dung liên quan đến cơng tác nghiệp vụ Công an cần quan tâm; để phục vụ yêu cầu nghiệp vụ lực lượng Phạm vi nghiên cứu Những thư có nội dung liên quan đến vấn đề mà công tác Công an quan tâm (nội dung thư gửi hiển thị dạng text doc, docx, pdf, txt…; thư có nội dung thuộc địa cần theo dõi cụm từ mà công tác nghiệp vụ công an phải quan tâm…) 2 Giới hạn nội dung thư viết ngôn ngữ tiếng Việt với loại font chữ tiếng Việt có (TCVN3, Unicode, VNI, UTF8…) Đồng thời, thư gửi mạng theo giao thức SMTP Phương pháp nghiên cứu - Nghiên cứu thư gửi theo giao thức SMTP để phân tách phần nội dung thư như: địa gửi, nhận, chủ đề thư, nội dung thư, file văn đính kèm… Trên sở sử dụng phương pháp so sánh đa chuỗi (multi matching) để tìm kiếm cụm từ cần quan tâm đối sánh để xây dựng sách lọc theo yêu cầu nghiệp vụ - Nghiên cứu font chữ tiếng Việt phương pháp chuyển đổi font chữ, từ chuyển đổi font chữ sang font tiêu chuẩn áp dụng phương pháp tìm kiếm so sánh đa chuỗi thực việc lọc nội dung thư Ngoài phần lời mở đầu, kết luận, tài liệu tham khảo phụ lục, luận văn chia thành chương: Chƣơng 1: Tổng quan hệ thống thƣ điện tử Chương nói cấu trúc thư điện tử, hệ thống thư tín điện tử giao thức sử dụng cho dịch vụ thư điện tử Ngoài ra, chương giới thiệu giao thức SMTP, sâu vào nghiên cứu việc gửi thư điện tử qua giao thức SMTP, nghiên cứu proxy cho SMTP Chƣơng 2: Phƣơng pháp kỹ thuật sử dụng cho hệ thống lọc nội dung thƣ điện tử Chương trình bày thơng tin cần kiểm sốt thư điện tử; số biện pháp kiểm soát nội dung thư điện tử; kỹ thuật sử dụng để phục vụ cho việc lọc thư: kỹ thuật tìm kiếm, so sánh chuỗi (multi matching), xử lý phông tiếng Việt (Unicode, TCVN3,VNI, UTF8…) Chƣơng 3: Lọc nội dung thƣ điện tử gửi theo giao thức SMTP Chương đề xuất phương pháp lọc mơ hình, xây dựng hệ thống lọc nội dung thư điện tử gửi theo giao thức SMTP 3 Chƣơng 1- TỔNG QUAN VỀ HỆ THỐNG THƢ ĐIỆN TỬ 1.1 Lý thuyết chung thƣ điện tử Hệ thống thư điện tử cho phép người dùng trao đổi thư điện tử với Hệ thống bao gồm nhiều máy chủ thư tín (mail server), có cài đặt phần mềm mail server để quản lý tài khoản người dùng, thực việc trao đổi thư người dùng trao đổi thư với máy chủ thư tín khác 1.1.1 Cấu trúc hệ thống thư điện tử MTA chuyển tiếp SMTP (via Internet ) MUA gửi System Call SMTP ( Direct connection ) TCP MDA SMTP Mail Retreival Agent MTA nhận System Call POP/IMAP Đọc/ Viết MDA cục MUA Hộp thư Viết System Call nhận Hình 1.1: Mơ hình hệ thống thƣ tín điện tử Để thực việc trao đổi thư với người dùng, máy chủ (mail server) máy khách (mail client) thống sử dụng chung giao thức gửi nhận thư, có quy định cụ thể cổng làm việc, quy trình thao tác, câu lệnh trao đổi, cấu trúc thư điện tử Hình 1.1 trình bày mơ hình hệ thống thư tín điện tử với giao thức gửi thư SMTP giao thức nhận thư POP IMAP Hệ thống bao gồm bốn phần tử chính: MUA (Mail User Agent), MTA (Mail Transfer Agent), MDA (Mail Delivery Agent), MRA (Mail Retrieval Agent) 4 Mail User Agent (MUA): chương trình phần mềm máy client người dùng sử dụng để gửi, nhận, soạn thảo, xử lý thư điện tử Mail Tranfer Agent (MTA): chương trình thư máy chủ, cho phép truyền tải thư điện tử từ máy sang máy khác Mail Delivery Agent (MDA): chương trình mà MTA sử dụng để chuyển thư vào hộp thư người dùng để truyền tải thư tới MTA khác Mỗi MTA sử dụng nhiều MDA, MDA sử dụng cho loại yêu cầu phân phát thư riêng Mail Retrieval Agent (MRA): chương trình dịch vụ có chức lấy thư điện tử từ hộp thư máy chủ xa đưa chúng tới MUA Các MRA truy vấn thư phần header từ hộp thư xa phân phát chúng tới MUA máy người dùng 1.1.2 Cấu trúc thư điện tử Thư điện tử thường có hai phần chính: phần đầu (Header) phần thân (Body) văn chứa nội dung thư Khi gửi đi, toàn thư điện tử gói nội dung (content) Ngồi ra, hệ thống thư tạo thêm phần gọi bì thư (envelope), phần chứa thơng tin cần thiết cho việc chuyển thư đến nơi nhận Hình 1.2 trình bày cấu trúc thư điện tử Bì thƣ Tiêu đề Phần thân Nội dung Hình 1.2: Cấu trúc thƣ điện tử 1.1.3 Một số giao thức sử dụng để gửi nhận thư điện tử Hệ thống Mail xây dựng dựa số giao thức: Simple Mail Transfer Protocol (SMTP), Post Office Protocol (POP), Multipurpose Internet Mail Extensions (MIME) Interactive Mail Access Protocol (IMAP ) định dạng RFC 1176 giao thức quan trọng để thay POP, cung cấp nhiều chế tìm kiếm văn bản, phân tích message từ xa mà ta khơng tìm thấy POP 1.1.3.1 Một số giao thức sử dụng để gửi thư điện tử 1.1.3.1.1 Giao thức SMTP (Simple Mail Transfer Protocol) SMTP giao thức tin cậy, chịu trách nhiệm phân phát thư điện tử Nó chuyển thư điện tử từ hệ thống mạng sang hệ thống mạng khác, chuyển thư hệ thống mạng nội Giao thức trình bày cụ thể phần Xây dựng proxy cho SMTP 1.1.3.1.2 Giao thức X.400 X.400 giao thức ITU-T ISO định nghĩa ứng dụng rộng rãi Châu Âu, Canada X.400 cung cấp tính điều khiển phân phối e-Mail, sử dụng định dạng nhị phân, khơng cần mã hóa nội dung phân phát thư mạng Internet 1.1.3.2 Một số giao thức sử dụng để nhận thư điện tử Có hai giao thức thường dùng ứng dụng máy thư khách để truy cập thư tín từ máy chủ: Post Office Protocol (POP) Internet Message Access Protocol (IMAP) 1.1.3.2.1 Giao thức POP POP giao thức thiết kết để hỗ trợ tiến trình thư “offline”, tiến trình thư phân phát tới máy chủ Một máy tính cá nhân người dùng gọi định kỳ chương trình thư khách kết nối tới máy chủ tải tất thư treo tới máy tính người dùng Cách truy cập offline loại dịch vụ store-to-forward, sử dụng để chuyển thư (theo đơn đặt hàng) từ máy chủ thư (vị trí đưa về) tới máy người đọc thư, thường PC Mac 1.1.3.2.2 Giao thức IMAP (Internet Message Access Protocol) IMAP giao thức chuẩn cho việc truy cập thư điện tử từ máy chủ thư cục Nó giao thức chủ/khách thư điện tử nhận trì máy chủ thư Với yêu cầu trao đổi liệu nhỏ làm việc tốt chí qua kết nối chậm modem Chỉ người dùng yêu cầu đọc thư điện tử cụ thể tải từ máy chủ thư Người dùng tạo chế tác thư mục hộp thư máy chủ, xóa tin nhắn… 1.2 Giao thức SMTP 1.2.1 Giới thiệu SMTP SMTP (Simple Mail Transfer Protocol) giao thức quy định việc truyền thư chủ yếu Internet, sử dụng chế chung cho việc chuyển tải thư điện tử máy tính với giao thức TCP/IP Khi tiến trình SMTP thực hiện, SMTP client mở kết nối TCP tới tiến trình SMTP server nằm máy chủ xa cố gắng để gửi mail thông qua kết nối SMTP server lắng nghe kết nối TCP cổng 25 Người dùng Hệ thống SMTP khách SMTP khách SMTP Commands/Replies And Mail SMTP chủ Hệ thống SMTP chủ Hình 1.3: Mơ hình truyền thƣ sử dụng giao thức SMTP Khi SMTP client có thơng điệp truyền đi, thiết lập kênh truyền hai chiều tới SMTP server Trách nhiệm SMTP client chuyển giao thông điệp thư cho nhiều SMTP server (hoặc báo lỗi sai thực hiện) Hoạt động giao thức SMTP hệ thống thƣ điện tử Mối quan hệ SMTP hệ thống thư điện tử trình bày hình 1.4: Hình 1.4: Hoạt động giao thức SMTP hệ thống thƣ điện tử Client liên quan đến thư đi, Server liên quan đến nhận thư Hệ thống thư cục chứa hộp thư (mailbox) user Mailbox có phần: phần cục phần toàn cục Sau tháo thư khuôn dạng chuẩn, hệ thống thư cục xác định tên người nhận hộp thư cục hay phải gửi Để thư gửi đi, Client SMTP phải biết địa IP nơi nhận thông qua DNS gửi qua cổng địa SMTP (25) để bắt đầu thiết lập kết nối server SMTP nơi nhận Khi mối nối thiết lập, Client bắt đầu chuyển thư đến Server lệnh SMTP 1.2.2 Mơ hình giao thức SMTP Mơ hình SMTP hỗ trợ hai phương pháp truyền phát thư end-to-end (khơng có MTA trung gian) store-and-forward Phương pháp end-to-end sử dụng mạng nội tổ chức phương pháp store-and-forward lựa chọn cho hệ điều hành tổ chức có mạng sử dụng giao thức TCP/IP SMTP sở Một tiến trình SMTP truyền tải thư điện tử tới tiến trình khác mạng tới mạng khác thơng qua tiến trình truyền tiếp qua cổng nối tới hai mạng Một mơ hình đơn giản thành phần hệ thống SMTP trình bày hình 1.5: User (ngƣời nhận) User ( ngƣời gửi) UA (User Agent) UA (User Agent) Queue of mail Hàng đợi thư User Mailboxes MTA client (Mail Transfer Agent) SMTP Commands, Replies and Mail Kết nối giao thức TCP, cổng 25 MTA Server (Mail Transfer Agent) Hình 1.5: Mơ hình giao thức SMTP 1.2.3 Hệ thống chuyển tiếp thư theo giao thức SMTP Người dùng làm việc với UA (User Agent) Việc trao đổi thư sử dụng giao thức TCP thực nhờ MTA MTA gửi truyền thư qua mạng tới cổng 25 giao thức TCP MTA nhận Việc truyền thông tin máy chủ gửi máy chủ nhận mạng ngồi việc chuyển tiếp phức tạp (xem Hình 1.6) Việc thêm MTA vào phía người gửi MTA vào phía người nhận, MTA khác thực máy chủ máy khách, chuyển tiếp thư điện tử qua mạng Máy chủ nhận Máy chủ gửi User (ngườinhận) User (ngườinhận) ) UA (User Agent) UA (UserAgent) User Mailboxes Hộp thư nhận Queue of mail Đợi thư gửi Local MTA Local MTA Relay MTA Local MTA Local MTA SMTP Commands, Replies and Mail Relay MTA Thông qua Internet Queue of mail Hàng đợi thư Local MTA Local MTA Queue of mail Hàng đợi thư Hình 1.6: Mơ hình SMTP với MTA chuyển tiếp Hệ thống MTA relay cho phép nơi không sử dụng giao thức TCP/IP để gửi thư điện tử tới người dùng nơi khác khơng thể sử dụng giao thức TCP/IP 9 Sự giữ trễ tình phân phát thƣ Giao thức SMTP cho phép giữ trễ phân phát, thư điện tử giữ trễ vị trí người gửi, chỗ người nhận, máy chủ trung gian 1.3 Xây dựng Proxy cho SMTP 1.3.1 Khái niệm Proxy Proxy máy chủ trung gian cho phép kết nối từ máy cá nhân (client) tới máy chủ chạy web Internet (theo nghĩa trực tiếp), khơng cho phép packet (gói tin) trực tiếp hệ thống sử dụng Internet mà phải gián tiếp thông qua dual home host qua kết hợp basion host (pháo đài phòng ngự) screening router Hình 1.7: Mơ hình proxy Các dịch vụ Proxy không cho phép kết nối trực tiếp, chúng buộc tất gói tin mạng phải kiểm tra lọc theo quy tắc thích hợp Thay trao đổi thơng tin trực tiếp với dịch vụ thực sự, người dùng phải trao đổi thông tin với Proxy server 1.3.2 Proxy tầng ứng dụng Proxy tầng ứng dụng máy chủ trung gian cho phép kết nối từ máy trạm khai thác dịch vụ (client) tới máy chủ cung cấp dịch vụ (server), không cho phép packet (gói tin) trực tiếp từ client tới server mà phải gián tiếp thông qua proxy ProxyServer giống cầu nối trung gian Client Server Khi có yêu cầu kết nối Client đến Server thật, ProxyServer định đáp ứng hay khơng đáp ứng Một dịch vụ proxy có ba phận riêng biệt, là: proxy server, proxy client, phân tích giao thức Trong đó, proxy server làm nhiệm vụ chuyển yêu cầu chấp nhận client tới server thực chuyển đáp ứng yêu cầu tới client thực Hình 1.8 trình bày mơ hình trao đổi thơng tin Client Server qua Proxy 10 Hình 1.8: Mơ hình trao đổi thơng tin Client Server qua Proxy 1.3.3 Xây dựng proxy cho SMTP SMTP proxy proxy thuộc lớp ứng dụng sử dụng cho dịch vụ thư tín để kiểm sốt thư điện tử gửi qua giao thức SMTP Nó gồm hai thành phần thực chức cách riêng biệt: Proxy Server Proxy Client Hình 1.9 trình bày mơ hình proxy cho giao thức SMTP SMTP Proxy SMTP Server Client POP,IMAP ,… SMTP Client thực SMTP POP,IMAP ,… Spool SMTP Server thực SMTP Hình 1.9: Mơ hình hoạt động SMTP Proxy 11 Chƣơng 2- PHƢƠNG PHÁP VÀ CÁC KỸ THUẬT SỬ DỤNG CHO HỆ THỐNG LỌC NỘI DUNG THƢ ĐIỆN TỬ Những thông tin cần kiểm soát thƣ điện tử 2.1 Dựa mục tiêu hệ thống lọc kiểm soát nội dung thư điện tử gửi đi, thơng tin cần kiểm sốt là: Địa người gửi (trong trường “from”), người nhận (trong trường “to”); Chủ đề, tiêu đề (trong trường “Subject”); Các địa trường “CC” “Bcc”: trường gồm nhiều địa người nhận; Nội dung thư viết phần “body” người gửi soạn thảo; Các file đính kèm (có thể nén, mã hoá, để định dạng doc, docx,txt,pdf….) 2.2 Một số biện pháp kiểm soát nội dung thƣ điện tử 2.2.1 Lọc thư rác Thư rác (spam) thư điện tử, tin nhắn gửi đến người nhận mà người nhận khơng mong muốn khơng có trách nhiệm phải tiếp nhận theo quy định pháp luật Vấn đề thư rác vấn đề gây nhức nhối xã hội năm gần Nhiều cơng trình nghiên cứu phương pháp lọc thư rác đầu tư tiến hành từ lâu Để đánh giá hiệu công cụ lọc thư rác người ta thường dựa hai độ đo sau: False Positive – Tỷ lệ thư thường bị lọc nhầm thành thư rác False Negative – Tỷ lệ thư rác bị lọc nhầm thành thư thường Tất cơng cụ lọc có giá trị ngày thường sử dụng số phương pháp kết hợp phương pháp sau: Phương pháp lọc Bayesian Phương pháp lọc SpamAssassin Phương pháp dùng danh sách trắng/đen Phương pháp lọc thư rác dùng chuỗi hỏi đáp (Challenge/Response filters) Phương pháp lọc dựa vào vị trí lọc (Filter Placement) Phương pháp lọc dựa xác nhận danh tính người gửi 12 2.2.2 Lọc theo từ khóa Phương pháp lọc theo từ khóa phương pháp truyền thống việc lọc thư Người ta dựa vào từ hay cụm từ có đầu đề thư (subject) nội dung thư để lọc Phương pháp có ưu điểm là: - Tính thích nghi: Người dùng dễ dàng biến đổi lọc thiết lập sách lọc theo mục đích để lọc thư có nội dung cần quan tâm để phục vụ mục đích người dùng - Tính mở rộng: phương pháp sử dụng cho việc lọc thư rác Khi thư gửi đi, từ hay cụm từ xác định thư rác hay không Phương pháp đặc biệt hiệu với mục đích kiểm sốt nội dung thơng tin, địa thư nhằm phục vụ mục đích người dùng Ví dụ số thư điện tử có nội dung mang tính chất phản động sau: “bản chất cướp cộng đảng Việt Nam”… Những nội dung cần kiểm sốt, ngăn chặn tìm nguồn gốc người phát tán, gửi đến người nhận Một số thuật toán sử dụng so sánh chuỗi (multi matching) 2.3.1 Khái niệm so sánh chuỗi 2.3 So sánh chuỗi trình tìm kiếm nhiều vị trí xuất mẫu (pattern), tìm kiếm từ khóa văn Phần tìm hiểu so sánh ba giải thuật so sánh chuỗi bao gồm Naïve, Knutt – Morris – Pratt Boyer – Moore Kỹ thuật sử dụng để lọc nội dung theo phương pháp lọc từ khóa 2.3.2 Một số thuật toán so sánh chuỗi 2.3.2.1 Thuật toán Naïve Đây giải thuật đơn giản nhất, sử dụng nguyên lý vét cạn để kiểm tra tất khả xuất chuỗi ký tự có văn Hình 2.1: Minh họa thuật tốn Nạve String Matcher 13 Thuật tốn Knutt – Morris – Pratt trình bày cải thiện, tốt ơn nhiều so với Nạve tận dụng thơng tin hữu ích tìm kiếm 2.3.2.2 Thuật toán Knuth – Morris – Pratt Thuật toán Knuth-Morris-Pratt xây dựng dựa thuật tốn Nạve với ý tưởng lợi dụng lại thông tin lần thử trước cho lần sau Hình 2.2: Minh họa hàm tiền tố ∏ (a) So sánh mẫu P = ababaca với văn T, cho kết ký tự khớp nối thành công (b)Với kết biết văn ký tự ghép nối, thấy độ dịch chuyển s + không hợp lệ, s’ = s + có khả hợp lệ (c) Thơng tin hữu ích giúp giảm số lần thử, tính tốn cách so sánh ký tự chuỗi mẫu Mặc dù giảm số lần so sánh ký tự, thuật toán KMP cố gắng kiểm tra ký tự lần Do đó, thời gian xử lý chưa cải thiện nhiều Điều quan trọng phải giảm bớt số ký tự cần so khớp Đây ý tưởng thuật toán Boyer – Moore trình bày 2.3.2.3 Thuật tốn Boyer – Moore Thuật tốn Boyer - Moore thuật tốn tìm kiếm chuỗi có hiệu thực tiễn, hoạt động theo quy tắc kiểm tra ký tự mẫu từ phải sang trái phát khác đầu tiên, thuật toán tiến hành dịch chuyển 14 Bằng cách loại bỏ tối đa số ký tự cần so sánh, tốc độ xử lý thuật toán BM tăng lên đáng kể Tuy nhiên, độ dài văn lớn số lượng văn nhiều trình tìm kiếm tốn Trên thực tế, nhiều nghiên cứu đề xuất thuật toán cải tiến thuật toán cũ tiến hành nhằm giải toán so sánh đa mẫu Bên cạnh thuật toán so sánh đa mẫu điển Aho – Corasick, Wu – Manber (WB) cho thuật toán tối ưu trình tìm kiếm so sánh chuỗi Phần trình bày chi tiết thuật toán 2.3.2.4 Thuật toán Wu – Manber a) Giới thiệu thuật toán: Thuật toán WM xây dựng với hai chế lõi, chế lọc dựa công nghệ băm chế dịch chuyển khối ký tự dựa công nghệ dịch chuyển ký tự xấu thuật toán Boyer – Moore Để phục vụ việc tính tốn độ dịch chuyển, giai đoạn tiền xử lý xác định kích thước cửa sổ đối sánh; thồng thời thiết lập ba bảng liệu gồm bảng SHIFT lưu trữ khoảng cách dịch chuyển khối ký tự xuất văn bản; bảng HASH chứa danh sách liên kết mẫu có chuỗi hậu tố giống bên cửa sổ đối sánh; bảng PREFIX chứa danh sách liên kết mẫu có chuỗi tiền tố giống bên cửa sổ đối sánh Quá trình so khớp mẫu thực thơng qua tính tốn giá trị băm, thiết lập danh sách mẫu có chuỗi hậu tố giống nhau, sau so sánh với giá trị băm khối ký tự bên cửa sổ đối sánh thời Khi chuỗi mẫu so khớp, cửa sổ tiếp tục dịch chuyển sang phải Công nghệ dịch chuyển ký tự xấu ứng dụng để dịch chuyển cửa sổ đối sánh, nhiên dịch chuyển theo khối ký tự, thay ký tự đơn lẻ Boyer – Moore Nhằm khắc phục ảnh hưởng mẫu ngắn, thuật toán High Concurrence Wu – Manber (HCWM) đề xuất với nhiều cải tiến đáng kể Bằng cách tiến hành chia tất mẫu thành nhiều mẫu khác tùy theo độ dài chúng; thuật tốn HCWM sau xử lý mẫu theo cách khác Bên cạnh đó, cấu trúc liệu độc lập sử dụng cho mẫu khác tạo tương tranh cao, đồng thời xử lý mẫu, nhờ tăng cường tốc độ so sánh mẫu HCWM, làm cho thuật toán đạt hiệu suất cao nhiều so với WM 15 Chƣơng 3- LỌC NỘI DUNG CHO THƢ ĐIỆN TỬ GỬI THEO GIAO THỨC SMTP Để kiểm sốt việc gửi thư điện tử qua giao thức SMTP, cần phải có hệ thống lọc nội dung thư nằm đường máy gửi thư mail server Chính sách lọc thư dựa việc kiểm tra phần envelope, content file đính kèm thư điện tử để phát thư vi phạm sách bảo đảm an ninh an tồn thơng tin 3.1 Mơ hình hệ thống lọc nội dung Thƣ điện tử qua giao thức SMTP Mơ hình hệ thống lọc thư điện tử trình bày Hình 3.2 E-mail Client Mail Server FIRE WALL SMTP PROXY Server Client Client Server Mô đun xử lý font tiếng Việt Mô đun lọc Lưu giữ thư vi phạm Mô đun hệ thống lọc nội dung thƣ Chính sách lọc CSDL Mơ đun Quản Trị lọc Hình 3.1: Mơ hình hệ thống lọc nội dung thƣ điện tử sử dụng giao thức SMTP Bộ lọc thư điện tử gửi theo giao thức SMTP gồm mơ đun sau: mơ đun Firewall, mô đun SMTP proxy, mô đun xử lý font tiếng Việt, mô đun lọc mô đun quản trị 16 3.1.1 Mô đun Firewall Mô đun thực chức định hướng lại gói tin thư điện tử gửi từ máy Client tới SMTP server theo cổng 25 Các gói tin có địa cổng đích TCP 25 định hướng lại để tới mô đun SMTP proxy server với cổng đích xác định 3.1.2 Mơ đun SMTP proxy Khi hệ thống chưa có chế lọc nội dung, mơ đun SMTP proxy có chức Proxy bình thường nhận thư từ phía máy người gửi chuyển tiếp thư tới máy mail server để truyền phát thư tới địa đích Khi hệ thống có chế lọc nội dung, hoạt động thành phần Proxy có thay đổi Các thành phần đóng vai trị người trung gian tiếp nhận yêu cầu từ máy Client tiếp nhận yêu cầu từ Mail server để chuyển đến mô đun xử lý font tiếng Việt 3.1.3 Mô đun xử lý font tiếng Việt Khi nhận thư từ SMTP proxy server gửi đến, mô đun phân tích phần envelope content thư Một thư người dùng tạo gửi viết nhiều dạng font chữ khác Hiện nay, có nhiều cách mã hóa kí tự tiếng Việt khác nhau, dẫn tới có nhiều bảng mã khác sử dụng Theo thống kê, có tới 40 bảng mã tiếng Việt khác sử dụng, đó, việc khai thác tài liệu xử lý liệu phức tạp Tuy nhiên, việc sử dụng tiếng Việt máy tính chưa có thống cao chuẩn mã tiếng Việt, gây khó khăn lớn cho việc thu thập, khai thác xử lý tiếng Việt Đòi hỏi hệ thống xử lý văn tiếng Việt cần phải có bước tiền xử lý để nhận dạng quy chuẩn ký tự bảng mã chung Mô đun xử lý font tiếng Việt có chức năng: + Chuyển từ khóa mã hóa nhiều dạng font chữ khác một dạng quy chuẩn ký tự bảng mã chung hệ thống thiết lập từ trước, sau chuyển tới mơ đun lọc để thực việc lọc thư + Chuyển đổi mã nội dung thư định dạng ban đầu người dùng soạn thảo để chuyển tiếp cho SMTP proxy client để gửi thư đến địa nhận 17 3.1.4 Mô đun lọc Đây phần quan trọng hệ thống lọc nội dung thư điện tử Khi nội dung thư mô đun xử lý font tiếng Việt thực hiện, mô đun lọc sử dụng kỹ thuật tìm kiếm so sánh chuỗi (multi matching) để thực đối sánh phần địa gửi đi, địa nhận thư, từ khóa phần tiêu đề thư nội dung với từ cụm từ khóa cấm có sở liệu lọc (từ điển lọc) để kiểm tra nội dung có trùng khớp hay khơng? Nếu thơng tin đối sánh trùng lọc thực việc ghi lại nhật ký thực sách lọc 3.1.5 Mô đun Quản trị Cho phép người quản trị hệ thống điều khiển lọc, thiết lập sách lọc cơng cụ lọc như: thiết lập địa cần lọc, từ khóa cần lọc, kết xuất nhật ký vi phạm, lưu giữ thư vi phạm v.v 3.2 Lƣu đồ hoạt động hệ thống lọc thƣ điện tử 3.2.1 Lưu đồ tiếp nhận gửi thư không vi phạm Lưu đồ tiếp nhận gửi thư không vi phạm biểu diễn Hình 3.2 Khi SMTP proxy khởi tạo kết nối, máy mail client gửi yêu cầu kết nối tới SMTP proxy server Sau SMTP proxy server xác nhận cho phép mail client gửi thư, hệ thống tiến hành xử lý font tiếng Việt Tiếp theo, hệ thống lọc thư kiểm tra thư gửi có vi phạm sách lọc hay khơng Nếu thư gửi khơng vi phạm sách lọc, thư chuyển tới Proxy SMTP client 18 Proxy SMTP khởi tạo E-mail Client Gửi thư Proxy SMTP Server Xử lý font tiếng Việt Kiểm tra thư vi phạm ? Vi phạm Thực theo yêu cầu nghiệp vụ Khơng vi phạm Proxy Client SMTP SERVER Hình 3.2: Lƣu đồ tiếp nhận gửi thƣ điện tử khơng vi phạm Ngược lại, thư vi phạm sách lọc thư xử lý theo sách vi phạm trình bày phần 3.2.2 3.2.2 Lưu đồ xử lý thư vi phạm Hình 3.3 thể bước xử lý thư vi phạm sách an ninh an tồn thơng tin 19 CSDL Cần đối sánh Proxy SMTP server Bộ nhớ Xử lý font tiếng Việt Thư gửi Kiểm tra thư vi phạm? ? Dữ liệu cần đối sánh Không vi phạm Ghi nhật ký Thay đổi nội dung thư Vi phạm Client proxy SMTP SERVER Hình 3.3: Lƣu đồ xử lý thƣ vi phạm Thư SMTP proxy tiếp nhận từ mail client lưu vào vùng nhớ Tại hệ thống lọc xử lý font tiếng Việt trước lấy địa từ khóa cần ngăn chặn có CSDL hệ thống lọc để đối sánh với địa nội dung thư (như nói phần trên) Khi có trùng khớp thư vi phạm sách lọc Hệ thống ghi lại nhật ký vi phạm, đồng thời thay đổi nội dung thư chuyển tiếp thư tới Proxy client để chuyển thư tới SMTP server 20 3.2.3 Thiết lập sách lọc Chính sách lọc thư điện tử thiết lập theo tiêu chí: lọc theo địa lọc theo từ khóa Lọc theo địa bao gồm: lọc địa người gửi địa người nhận Lọc theo địa người gửi Lọc theo địa nhận gồm có trường: To: ; Cc: ; Bcc: Nếu địa gửi trùng với địa có CSDL hệ thống lọc cần chặn lọc thay đổi trường địa người nhận trường địa người gửi đồng thời thay nội dung thư thông báo “Thư vi phạm an ninh an tồn thơng tin” Lọc theo từ khóa thực lọc từ tiêu đề thư (subject) phần nội dung thư Những từ cần kiểm soát thiết lập từ điển lọc, hệ thống tiến hành so sánh với nội dung thư, vi phạm bị hệ thống ngăn chặn gửi thơng báo để người quản trị có biện pháp xử lý kịp thời 3.3 Cài đặt hệ thống hoạt động phần mềm lọc thƣ điện tử 3.3.1 Cài đặt Firewall 3.3.2 Cài đặt hệ thống lọc thư điện tử Để cài đặt hệ thống lọc thư điện tử cần thao tác theo thứ tự bước sau: Bước 1: Chép cài đặt emailrelay.tar vào thư mục /opt dùng lệnh /tar –xvzf emailrelay.tar để giải nén cài đặt vào thư mục lựa chọn để cài đặt cho lọc mail Sửa file cấu hình lọc theo sách lọc cổng lọc ấn định Trong đó: Thư mục /usr/local/emailrelay/etc chứa file cấu hình chương trình Thư mục /usr/local/emailrelay/libexec chứa file thư viện file chạy chương trình Thư mục /usr/local/emailrelay/tmp chứa file nhật ký Thư mục /usr/local/emailrelay/var/spool lưu giữ thư tạm thời, chờ hệ thống chuyển Bước 2: Kích hoạt hệ thống lọc thư việc đánh lệnh: /usr/local/emailrelay/libexec/emailrelay/init/emailrelay start Bước 3: Kiểm tra hoạt động hệ thống: ps –ef | grep emailrelay 21 KẾT LUẬN Lọc nội dung thư điện tử theo giao thức SMTP nhằm mục đích kiểm sốt nội dung thư điện tử gửi Internet hướng việc đảm bảo an ninh an tồn thơng tin Hướng tiếp cận đề tài đặc biệt hiệu việc thu thập thông tin, theo dõi đối tượng phục vụ cho hoạt động nghiệp vụ lực lượng Cơng an góp phần khơng nhỏ việc hạn chế việc phát tán tài liệu, tuyên truyền, kích động nói xấu Đảng, lãnh đạo, Nhà nước Đề tài đáp ứng phần yêu cầu thực tiễn đặt vấn đề kiểm soát nội dung thơng tin Internet Khóa luận hệ thống hóa số vấn đề lý thuyết hệ thống thư điện tử, giới thiệu số biện pháp kiểm soát nội dung thư điện tử, số phương pháp ứng dụng phổ biến Tuy nhiên với mục tiêu đề tài đặt việc sử dụng phương pháp lọc từ khóa sử dụng kỹ thuật multi matching thu kết thực khả quan đáp ứng nhu cầu cấp thiết số vấn đề cần quan tâm Tuy nhiên, thời gian nghiên cứu có hạn chương trình lọc thực chức lọc dựa theo cấu trúc thư điện tử lọc theo trường địa người nhận, người gửi, tiêu đề thư nội dung thư theo từ khóa tiếng việt Với kết đạt được, đề tài tiến hành thử nghiệm phịng thí nghiệm An ninh an tồn thơng tin, Cục Tin học nghiệp vụ, Bộ Công an Nếu có điều kiện, thời gian cho phép, tác giả mong muốn nghiên cứu phát triển hoàn thiện chức lọc chương trình lọc nội dung tệp đính kèm với định dạng khác Trong thời gian tới tiến hành thử nghiệm tích hợp với mơ đun lọc khác như: lọc thư điện tử sử dụng giao thức khác như: giao thức POP, IMAP; lọc nội dung trang web, kiểm tra lỗ hổng an ninh trang web… để đưa hệ thống vào hoạt động thực tế ... 3: Lọc nội dung thƣ điện tử gửi theo giao thức SMTP Chương đề xuất phương pháp lọc mơ hình, xây dựng hệ thống lọc nội dung thư điện tử gửi theo giao thức SMTP 3 Chƣơng 1- TỔNG QUAN VỀ HỆ THỐNG... 3- LỌC NỘI DUNG CHO THƢ ĐIỆN TỬ GỬI THEO GIAO THỨC SMTP Để kiểm sốt việc gửi thư điện tử qua giao thức SMTP, cần phải có hệ thống lọc nội dung thư nằm đường máy gửi thư mail server Chính sách lọc. .. thời, thư gửi mạng theo giao thức SMTP Phương pháp nghiên cứu - Nghiên cứu thư gửi theo giao thức SMTP để phân tách phần nội dung thư như: địa gửi, nhận, chủ đề thư, nội dung thư, file văn đính