Xây dựng tập huấn luyện token cho quá trình lọc thư

Một phần của tài liệu Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG (Trang 72 - 76)

4. Phạm vi ứng dụng

4.3.2.1.Xây dựng tập huấn luyện token cho quá trình lọc thư

Hình 4.3 – Quy trình huấn luyện các token tiếng Anh Chức năng chương trình gồm cĩ

+ Lựa chọn thư mục chứa danh sách các thư cần huấn luyện. Ở đây chương trình sử dụng 1500 thư tốt và 4455 thư spam

+ Thanh Progress phía trên thể hiện quy trình thực hiện

+ Gồm 2 chức năng chính: huấn luyện token cho thư spam và huấn luyện token cho thư tốt

+ Phía dưới thể hiện các thơng số: tổng số thư đã huấn luyện, tổng số thư tốt ,

thư spam đã huấn luyện và tổng số từ đã huấn luyện.

4.3.2.2. Chuẩn hĩa tập token đã huấn luyện

Hình 4.4– Quy trình chuẩn hĩa tập token tiếng Anh

Chức năng chính của chức năng này là loại bỏ các token khơng cĩ ý nghĩa trong nội dung thư, cụ thể các từ nối câu, các dấu câu và các con số…

Ngồi các token thừa đã bị loại bỏ, người sử dụng cịn cĩ thể thêm hoặc bớt đi các token theo ý sử dụng.

Những token bị loại bỏ này sẽ khơng tham gia vào quá trình phân tích và phân lớp thư spam

4.3.2.3. Phân tích thư tiếng Anh

Hình 4.5 – Quy trình phân tích một bức thư tiếng Anh Quy trình chính gồm các bước sau đây

+ Lựa chọn thư cần phân tích trên danh sách phía bên trái + Phần phía trên thể hiện nội dung của thư cần phân tích

+ Cĩ các chức năng chính: xem nội dung thư, tính Token và xác suất của các token cĩ trong thư, phân tích và phân lớp thư

+ Phía dưới gồm hai phần chính thể hiện danh sách các token kèm xác suất của các token đĩ, phần cịn lại lựa chọn 20 token cĩ trọng số tốt nhất trong danh sách các token để sử dụng cho quá trình phân lớp thư và cho biết xác xuất spam trung bình cùa thư cần phân tích

+ Dựa trên xác suất spam trung bình của thư đã phân tích được để hiển thị kết quả phân lớp thư bằng hộp thoại

4.3.2.4. Phân lớp hàng loạt thư tiếng Anh

Hình 4.6 – Quy trình phân lớp hàng loạt thư tiếng Anh Gồm cĩ các phần chính sau đây

+ Phía bên trái dùng để lựa chọn thư mục chứa tập hợp thư cần phân tích

+ Phần phía trên dùng để hiển thị kết quả phân tích bức thư hiện tại gồm các thơng tin: trọng số spam trung bình và kết quả phân loại thư

+ Phần phía dưới cho biết thơng tin tổng quát: tổng số thư, số thư spam và thư tốt đã phân lớp thành cơng

+ Thanh tiến trình cho phép người sử dụng biết quá trình thực hiện việc phân tích đang ở giai đoạn nào.

+ Kết quả phân lớp thư sẽ chứa trong 2 thư mục: KQSpamTiengAnh và KQHamTiengAnh và sẽ kèm theo file chứa tồn bộ kết quả phân tích của các bức thư

Một phần của tài liệu Đề tài NGHIÊN cứu xây DỰNG bộ LỌCSPAM THÔNG MINH, tự ĐỘNG (Trang 72 - 76)