K 6 tokens 8 tokens 10 tokens
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận
Kết luận
Đề tài đã đạt được những kết quả sau đây:
Tìm hiểu các phương pháp lọc thống kê cũng như những điểm mạnh của các kỹ thuật phân loại văn bản nhằm áp dụng tốt vào quy trình lọc thư rác. So sánh các phương pháp tách từ trong tiếng Việt , từ đĩ lựa chọn phương
pháp tối ưu nhất để giải quyết bài tốn và xây dựng bộ từ điển hồn chỉnh cho bài tốn lọc thư rác.
Nghiên cứu các thuận tốn, đặc biệt là thuật tốn Nạve Bayes ứng dụng vào quá trình phân lớp thư rác.
Phân tích và xây dựng cơng cụ xác định một văn bản hay email là tiếng Anh hay tiếng Việt.
Xây dựng được bộ lọc thư rác hỗ trợ cho 2 ngơn ngữ: Anh và Việt.
Với tiếng Việt đã xây dựng được bộ từ điển tương đối đầy đủ gồm 4088 từ đơn và 7562 từ ghép về lĩnh vực thư rác, quá trình học từ vẫn tiếp tục học trong quá trình sử dụng bộ lọc.
Đã thử nghiệm lọc thư spam tiếng Việt trên cả 03 cơ chế: từ đơn, từ ghép và cả từ đơn lẫn từ ghép. Cĩ kết quả thực nghiệm để so sánh giữa 03 cơ chế trên
Kết quả thực nghiệm cho thấy hướng tiếp cận của đề tài khả quan cho độ chính xác cao trong một khoảng thời gian chấp nhận được. Tuy nhiên cần thu thập thêm bộ dữ liệu huấn luyện và thử nghiệm để cĩ được kết luận chính xác nhất cĩ thể.
Hướng phát triển:
Cần tiếp tục nghiên cứu cải tiến khâu tiền xử lý văn bản, xây dựng các mẫu huấn luyện tiêu chuẩn cũng như điều chỉnh giải thuật để cĩ thể nâng cao độ chính xác phân loại hơn nữa.
Nâng khả năng lọc thư rác loại nội dung là hình ảnh, ký tự lạ, …. Giải quyết tốt hơn ở các định dạng tập tin đính kèm khác của thư rác. Xây dựng hệ thống Webmail và tích hợp bộ lọc vào hệ thống.