KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận

Một phần của tài liệu Nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ anh việt luận văn thạc sĩ (Trang 71 - 73)

K 6 tokens 8 tokens 10 tokens

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận

Kết luận

Đề tài đã đạt được những kết quả sau đây:

Tìm hiểu các phương pháp lọc thống kê cũng như những điểm mạnh của các kỹ thuật phân loại văn bản nhằm áp dụng tốt vào quy trình lọc thư rác. So sánh các phương pháp tách từ trong tiếng Việt , từ đĩ lựa chọn phương

pháp tối ưu nhất để giải quyết bài tốn và xây dựng bộ từ điển hồn chỉnh cho bài tốn lọc thư rác.

Nghiên cứu các thuận tốn, đặc biệt là thuật tốn Nạve Bayes ứng dụng vào quá trình phân lớp thư rác.

Phân tích và xây dựng cơng cụ xác định một văn bản hay email là tiếng Anh hay tiếng Việt.

Xây dựng được bộ lọc thư rác hỗ trợ cho 2 ngơn ngữ: Anh và Việt.

Với tiếng Việt đã xây dựng được bộ từ điển tương đối đầy đủ gồm 4088 từ đơn và 7562 từ ghép về lĩnh vực thư rác, quá trình học từ vẫn tiếp tục học trong quá trình sử dụng bộ lọc.

Đã thử nghiệm lọc thư spam tiếng Việt trên cả 03 cơ chế: từ đơn, từ ghép và cả từ đơn lẫn từ ghép. Cĩ kết quả thực nghiệm để so sánh giữa 03 cơ chế trên

 Kết quả thực nghiệm cho thấy hướng tiếp cận của đề tài khả quan cho độ chính xác cao trong một khoảng thời gian chấp nhận được. Tuy nhiên cần thu thập thêm bộ dữ liệu huấn luyện và thử nghiệm để cĩ được kết luận chính xác nhất cĩ thể.

Hướng phát triển:

Cần tiếp tục nghiên cứu cải tiến khâu tiền xử lý văn bản, xây dựng các mẫu huấn luyện tiêu chuẩn cũng như điều chỉnh giải thuật để cĩ thể nâng cao độ chính xác phân loại hơn nữa.

Nâng khả năng lọc thư rác loại nội dung là hình ảnh, ký tự lạ, …. Giải quyết tốt hơn ở các định dạng tập tin đính kèm khác của thư rác. Xây dựng hệ thống Webmail và tích hợp bộ lọc vào hệ thống.

Một phần của tài liệu Nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ anh việt luận văn thạc sĩ (Trang 71 - 73)