Phần quan trọng nhất của hệ thống bao gồm module huấn luyện và module lọc. Hai mơđun này kết hợp chặt chẽ với nhau, đầu ra của mơđun huấn luyện là các tham số tính tốn đƣợc trong thời gian huấn luyện (các xác suất điều kiện đối với học Bayes đơn giản) và đƣợc lƣu trong K.Base. Mơđun lọc thƣ sẽ đọc tham số từ K.Base và sử dụng để phân loại thƣ mới nhận đƣợc. Việc tách riêng mơđun huấn luyện khỏi mơđun phân loại làm tăng độ mềm dẻo khi cài đặt và sử dụng hệ thống. Về nguyên tắc, cĩ thể tách riêng mơđun huấn luyện và chạy trên máy khơng cĩ mail server để giảm tải cho máy chủ.
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Giao diện ngƣời dùng Gồm 2 IDE forms Phần lõi hệ thống K. Base bao gồm cơ sở dữ liệu chứa tham số các bộ phân loại sau khi đƣợc huấn luyện. Giao diện với mail server Bộ giao tiếp với Exchange
server thơng qua dịch vụ SMTP
Mail server
Hình 2.5: Kiến trúc chung của hệ thống lọc thư
Với kiến trúc thể hiện trên hình 2.5, luồng dữ liệu luân chuyển giữa các thành phần bộ lọc đƣợc mơ tả nhƣ sau:
Khi một bức thƣ đƣợc gửi đến Mail server exchange, nhờ chứa năng bẫy sự kiện Incoming mail của SMTP thì bức thƣ đĩ đƣợc đƣa đến Bộ phân loại Tiếng Anh, tiếng Việt hoặc đƣa thẳng đến Bộ phân loại thƣ rác (phụ thuộc vào tùy chọn của ngƣời dùng).
Huấn luyện Tuỳ chọn
K. Base Bộ phân loại thƣ tiếng Anh, tiếng Việt Bộ phân loại thƣ rác Dịch vụ SMTP Exchange Server Giao diện đăng kí với dịch vụ
Số hóa bởi Trung tâm Học liệu http://lrc.tnu.edu.vn/ Giả sử sau khi đƣa vào bộ phân loại Tiếng Anh, tiếng Việt, bức thƣ đƣợc chuyển cho bộ phân loại thƣ rác. Tại đây, nhờ quá trình tính tốn theo Naive Bayes, nĩ sẽ đƣợc gán nhãn là thƣ rác [Possible Spam] hoặc khơng gán nhãn nếu đƣợc xác định là thƣ thƣờng. Sau đĩ, thƣ đƣợc gửi đến Exchange server nhờ dịch vụ SMTP. Cuối cùng, bức thƣ đã sẵn sàng cho Mail Client lấy về qua giao thức POP3.