KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ anh việt (Trang 71 - 73)

K 6 tokens 8 tokens 10 tokens

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận

Kết luận

Đề tài đã đạt được những kết quả sau đây:

Tìm hiểu các phương pháp lọc thống kê cũng như những điểm mạnh của các kỹ thuật phân loại văn bản nhằm áp dụng tốt vào quy trình lọc thư rác. So sánh các phương pháp tách từ trong tiếng Việt , từ đó lựa chọn phương

pháp tối ưu nhất để giải quyết bài toán và xây dựng bộ từ điển hoàn chỉnh cho bài toán lọc thư rác.

Nghiên cứu các thuận toán, đặc biệt là thuật toán Naïve Bayes ứng dụng vào quá trình phân lớp thư rác.

Phân tích và xây dựng công cụ xác định một văn bản hay email là tiếng Anh hay tiếng Việt.

Xây dựng được bộ lọc thư rác hỗ trợ cho 2 ngôn ngữ: Anh và Việt.

Với tiếng Việt đã xây dựng được bộ từ điển tương đối đầy đủ gồm 4088 từ đơn và 7562 từ ghép về lĩnh vực thư rác, quá trình học từ vẫn tiếp tục học trong quá trình sử dụng bộ lọc.

Đã thử nghiệm lọc thư spam tiếng Việt trên cả 03 cơ chế: từ đơn, từ ghép và cả từ đơn lẫn từ ghép. Có kết quả thực nghiệm để so sánh giữa 03 cơ chế trên

 Kết quả thực nghiệm cho thấy hướng tiếp cận của đề tài khả quan cho độ chính xác cao trong một khoảng thời gian chấp nhận được. Tuy nhiên cần thu thập thêm bộ dữ liệu huấn luyện và thử nghiệm để có được kết luận chính xác nhất có thể.

Hướng phát triển:

Cần tiếp tục nghiên cứu cải tiến khâu tiền xử lý văn bản, xây dựng các mẫu huấn luyện tiêu chuẩn cũng như điều chỉnh giải thuật để có thể nâng cao độ chính xác phân loại hơn nữa.

Nâng khả năng lọc thư rác loại nội dung là hình ảnh, ký tự lạ, …. Giải quyết tốt hơn ở các định dạng tập tin đính kèm khác của thư rác. Xây dựng hệ thống Webmail và tích hợp bộ lọc vào hệ thống.

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin nghiên cứu xây dựng bộ lọc thư rác hỗ trợ song ngữ anh việt (Trang 71 - 73)

Tải bản đầy đủ (PDF)

(74 trang)