1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận Văn Nghiên Cứu Xây Dựng Bộ Lọc Spam Thông Minh Tự Động.pdf

88 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 88
Dung lượng 2,7 MB

Nội dung

Microsoft Word Cuonbaocao docx TRƯỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƯ LIỆU  BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI NGHIÊN CỨU XÂY DỰNG BỘ LỌC SPAM THÔNG MINH, TỰ ĐỘNG PHAN HỮU TIẾP BIÊN HÒA, TH[.]

TRƯỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƯ LIỆU - - BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG BỘ LỌC SPAM THÔNG MINH, TỰ ĐỘNG PHAN HỮU TIẾP BIÊN HÒA, THÁNG 6/2011 TRƯỜNG ĐẠI HỌC LẠC HỒNG TRUNG TÂM THÔNG TIN TƯ LIỆU - - BÁO CÁO NGHIÊN CỨU KHOA HỌC ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG BỘ LỌC SPAM THÔNG MINH, TỰ ĐỘNG Người thực hiện: PHAN HỮU TIẾP CAO NGUYỄN THỦY TIÊN Chủ nhiệm đề tài: Ths Lâm Thành Hiển BIÊN HÒA, THÁNG 6/2011 LỜI CẢM ƠN Lời xin chân thành gửi lời cám ơn sâu sắc đến thầy cô Trung Tâm Thông Tin Tư Liệu, trường Đại Học Lạc Hồng, nơi công tác nghiên cứu tạo điều kiện hỗ trợ suốt thời gian qua Chúng xin chân thành cám ơn đến người thân, bạn bè đồng nghiệp giúp đỡ động viên suốt thời gian học tập thời gian thực nghiên cứu Chân thành cám ơn ! Biên Hòa, ngày 15 tháng 06 năm 2011 Phan Hữu Tiếp, Cao Nguyễn Thủy Tiên MỤC LỤC Trang Lời cám ơn i Mục lục ii Danh mục bảng biểu, hình vẽ iii Mở đầu 1 Tóm lược đề tài Mục tiêu đề tài Nội dung thực đề tài Phạm vi ứng dụng Chương 1- Tổng quan thư spam 1.1 Khảo sát thư spam 1.1.1 Định nghĩa thư spam 1.1.2 Phân loại thư spam 1.1.2.1 Thư spam tiếng Anh 1.1.2.2 Thư spam tiếng Việt 1.1.3 Đặc điểm thư spam 1.1.4 Tác hại thư spam 1.1.5 Phương thức hoạt động thư spam 1.1.5.1 Quy trình chung phát tán thư spam 1.1.5.2 Thu thập địa email 1.1.5.3 Tìm kiếm máy tính Internet cho phép gửi thư 1.1.6 Tình hình thư spam Việt Nam 10 1.2 Phương pháp chống thư spam 11 1.2.1 Lọc thư qua địa IP 11 1.2.1.1 Sử dụng danh sách đen (Black List) danh sách địa tin cậy (White List) 11 1.2.1.2 Sử dụng danh sách xám (Grey List) 12 1.2.1.3 Chặn IP 13 1.2.1.4 Kiểm tra địa IP 12 1.2.2 Lọc thư dựa vào đặc tính thư spam 13 1.2.2.1 Kỹ thuật giấu địa email 13 1.2.2.2 Kỹ thuật nhân viên giả mạo (Fake worker) 14 1.2.2.3 Kiểm tra Header 14 1.2.3 Lọc thư spam dựa vào nội dung 14 1.2.3.1 Sử dụng từ khóa chuẩn 14 1.2.3.2 Xác thực tự động 15 1.2.3.3 Yêu cầu xác thực thư 15 1.2.3.4 Lọc thư theo nội dung 16 1.2.4 Lọc thư spam dựa vào thuật toán 16 1.2.4.1 Lọc thư sử dụng phương pháp heuristic 16 1.2.4.2 Lọc thư theo nội dung sử dụng phương pháp xác suất thống kê học máy 17 Chương 2- Phân tích lọc thống kê 19 2.1 Giới thiệu 19 2.2 Bài toán phân loại văn 19 2.2.1 Định nghĩa 19 2.2.2 Tiến trình phân loại văn 20 2.3 Những nguyên tắc lọc thống kê 22 2.3.1 Xây dựng tập huấn luyện 22 2.3.2 Sửa lỗi, huấn luyện lại 23 2.4 Các lọc thống kê 23 2.4.1 Bộ phân tích token tính giá trị 23 2.4.2 Phân lớp k Nearest Neighbors (k-NN) 25 2.4.3 Phân lớp theo kỹ thuật Support Vector Machine (SVM) 26 2.5 Các thuật giải áp dụng cho trình lọc thư spam 27 2.5.1 Giải thuật xác định kích thước 27 2.5.2 Giải thuật giảm nhiễu Bayesian (Bayesian Noise Reduction) 29 2.5.3 Thuật toán dựa luật RIPPER 29 Chương 3- Xây dựng lọc spma dựa phương pháp thống kê kỹ thuật Naïve Bayes 31 3.1 Tổng quan mạng Bayes 31 3.1.1 Giới thiệu mạng Bayes 31 3.1.2 Mơ hình chi tiết Naive Bayes 31 3.1.3 Ưu điểm lọc thư rác Bayes 32 3.2 Quy trình phân tích tổng qt 33 3.2.1 Phân tích đặc điểm chung thư spam 33 3.2.1.1 Phần Header thư spam 33 3.2.1.2 Phần thân thư spam 33 3.2.2 Phân loại thư rác tiếng Việt thư rác tiếng Anh 34 3.2.3 Phân tích từ vựng câu 35 3.2.3.1 Phân tích từ vựng 35 3.2.3.2 Phân tích câu 36 3.2.4 Biểu diễn nội dung thư 37 3.2.4.1 Biểu diễn nội dung thư dạng tập hợp từ (“túi từ”) 37 3.2.4.2 Sử dụng cụm từ có ngữ nghĩa để biểu diễn văn 38 3.2.4.3 Sử dụng phân cụm từ để biểu diễn văn 39 3.2.5 Các bước tiến hành lọc mạng Bayes 40 3.3 Tổng quan lọc thư rác tiếng Việt 42 3.3.1 Khó khăn q trình lọc thư spam tiếng Việt 42 3.3.2 Tình hình nghiên cứu 42 3.3.3 Phương pháp tiếp cận 43 3.3.3.1 Mục tiêu 44 3.3.3.2 Tiền xử lý tách câu tiếng Việt 45 3.3.3.3 Phân tích từ đơn 46 3.3.3.4 Phân tích từ ghép 48 3.3.3.5 Xây dựng từ điển tiếng Việt 51 3.3.3.6 Quy trình cập nhật từ vựng tiếng Việt 52 3.4 Quy trình lọc thư rác tiếng Việt 52 3.4.1 Áp dụng thuật tốn Nạve Bayes trình lọc thư 52 3.4.2 Quy trình lọc thư rác tiếng Việt 53 Chương 4- Xây dựng chương trình lọc thư spam 55 4.1 Kiến trúc hệ thống chương trình 55 4.1.1 Chương trình 55 4.1.2 Chương trình 56 4.2 Các bước xây dựng hệ thống 56 4.2.1 Xây dựng số chức 56 4.2.1.1 Chức chuẩn hóa liệu 56 4.2.1.2 Chức tách câu 56 4.2.1.3 Chức tạo thư 57 4.2.2 Đối với thư tiếng Anh 57 4.2.2.1 Các bước thực trình lọc 57 4.2.2.2 Xây dựng tập hợp token cho thư spam thư ham 57 4.2.2.3 Tính xác suất token phân loại thư 58 4.2.2.4 Cập nhật lại tri thức cho lọc 58 4.2.3 Đối với thư tiếng Việt 58 4.2.3.1 Xây dựng từ điển tiếng Việt 58 4.2.3.2 Phân tích văn tiếng Việt 59 4.2.3.3 Các bước thực trình lọc thư tiếng Việt 59 4.2.3.4 Xây dựng tập hợp token cho thư spam thư ham tiếng Việt 59 4.2.3.5 Tính xác suất token phân loại thư tiếng Việt 59 4.2.3.6 Cập nhật lại tri thức cho lọc tiếng Việt 59 4.3 Chức chương trình 61 4.3.1 Các chức chương trình 61 4.3.2 Quá trình lọc thư spam tiếng Anh 62 4.3.2.1 Xây dựng tập huấn luyện token cho trình lọc thư 62 4.3.2.2 Chuẩn hóa tập token huấn luyện 63 4.3.2.3 Phân tích thư tiếng Anh 64 4.3.2.4 Phân lớp hàng loạt thư tiếng Anh 65 4.3.3 Quy trình lọc thư spam tiếng Việt 66 4.3.3.1 Xây dựng từ điển từ đơn từ ghép 66 4.3.3.2 Chuẩn hóa từ điển tiếng Việt 66 4.3.3.3 Thể nội dung thư tiếng Việt 67 4.3.3.4 Xây dựng tập huấn luyện cho trình lọc thư 68 4.3.3.5 Phân tích thư tiếng Việt 69 4.3.4 Các hàm phục vụ chương trình 70 4.3.4.1 Chức tách câu đơn cho nội dung thư tiếng Việt 70 4.3.4.2 Chức tạo thư chứa nội dung 71 4.3.5 Các chức tổng quát liên quan đến hệ thống 72 4.3.5.1 Quản lý thông số chung hệ thống 72 4.3.5.2 Mơ hình hóa chức chương trình 71 4.3.6 Bộ lọc spam môi trường Internet 73 4.3.6.1 Chức gửi email 73 4.3.6.2 Bộ lọc spam chương trình 73 4.4 Kết thực nghiệm đánh giá kết đạt 74 4.4.1 Đối với thư spam tiếng Anh 74 4.4.2 Đối với thư spam tiếng Việt 75 4.4.2.1.Xây dựng từ điển tiếng Việt 75 4.4.2.2 Kết phân lớp thư tiếng Việt 75 Kết luận hướng phát triển 77 Phụ lục Tài liệu tham khảo DANH MỤC HÌNH VẼ Hình 1.1 - Nội dung thư spam theo báo cáo tháng 12-2010 Hình 1.2 - Lưu lượng spam theo báo cáo tháng 12-2010 Hình 1.3 - Virus email theo báo cáo tháng 12-2010 Hình 1.4 - Ví dụ trang web lấy cắp địa email người dùng Hình 1.5 - Một số website công ty gửi thư rác Hình 1.6 - Minh họa cách gửi thư rác qua mail server (open relay) Hình 1.7 - Tình hình thư rác số nước 10 Hình 1.8 - Nguyên lý phương pháp xác thực thư 15 Hình 1.9 - Ví dụ Capcha 16 Hình 2.1 - Tiến trình phân loại văn 20 Hình 2.2 - Tiến trình phân loại văn nâng cao 22 Hình 2.3 - Phân loại văn theo kỹ thuật Vector Machine (SVM) 26 Hình 3.1 - Mơ hình tổng quát lọc thư spam tiếng Việt 45 Hình 3.2 - Mơ hình tách câu tiếng Việt 46 Hình 3.3 - Mơ hình tách từ đơn tiếng Việt 48 Hình 3.4 - Mơ hình tách từ ghép tiếng Việt 51 Hình 4.1 - Sơ đồ khối chương trình 55 Hình 4.2 - Giao diện chương trình 61 Hình 4.3 - Quy trình huấn luyện token tiếng Anh 62 Hình 4.4 - Quy trình chuẩn hóa tập token tiếng Anh 63 Hình 4.5 - Quy trình phân tích thư tiếng Anh 64 Hình 4.6 - Quy trình phân lớp hàng loạt thư tiếng Anh 65 Hình 4.7 - Xây dựng từ điển từ tiếng Việt 66 Hình 4.8 - Chuẩn hóa từ điển tiếng Việt 67 Hình 4.9 - Quy trình phân tích thư tiếng Việt 68 Hình 4.10 - Quy trình huấn luyện token tiếng Việt 68 Hình 4.11 -Phân tích thư tiếng Việt 69 Hình 4.12 -Kết phân tích thư tiếng Việt 70 Hình 4.13 -Tách câu đơn cho nội dung thư tiếng Việt 70 Hình 4.14 -Tạo thư chứa nội dung từ Internet 71 Hình 4.15 -Quản lý thơng số chung hệ thống 72 Hình 4.16- Chức gửi mail 73 Hình 4.17 Bộ lọc spam hệ thống 73 DANH MỤC BẢNG BIỂU Bảng 3.1 Ví dụ nội dung thư 38 Bảng 3.2 Biểu diễn véctơ cho liệu bảng 3.1 38 Bảng 3.3 Thống kê độ dài từ từ điển 48 Bảng 3.4 Ví dụ minh họa phân tích từ đơn 54 Bảng 4.1 Kết phân loại thư tiếng Anh 74 Bảng 4.2 Thống kê từ điển từ tiếng Việt 75 Bảng 4.3 Kết phân loại thư tiếng Việt 76 64 4.3.2.3 Phân tích thư tiếng Anh Hình 4.5 – Quy trình phân tích thư tiếng Anh Quy trình gồm bước sau + Lựa chọn thư cần phân tích danh sách phía bên trái + Phần phía thể nội dung thư cần phân tích + Có chức chính: xem nội dung thư, tính Token xác suất token có thư, phân tích phân lớp thư + Phía gồm hai phần thể danh sách token kèm xác suất token đó, phần cịn lại lựa chọn 20 token có trọng số tốt danh sách token để sử dụng cho trình phân lớp thư cho biết xác xuất spam trung bình cùa thư cần phân tích + Dựa xác suất spam trung bình thư phân tích để hiển thị kết phân lớp thư hộp thoại 65 4.3.2.4 Phân lớp hàng loạt thư tiếng Anh Hình 4.6 – Quy trình phân lớp hàng loạt thư tiếng Anh Gồm có phần sau + Phía bên trái dùng để lựa chọn thư mục chứa tập hợp thư cần phân tích + Phần phía dùng để hiển thị kết phân tích thư gồm thông tin: trọng số spam trung bình kết phân loại thư + Phần phía cho biết thông tin tổng quát: tổng số thư, số thư spam thư tốt phân lớp thành cơng + Thanh tiến trình cho phép người sử dụng biết q trình thực việc phân tích giai đoạn + Kết phân lớp thư chứa thư mục: KQSpamTiengAnh KQHamTiengAnh kèm theo file chứa tồn kết phân tích thư 66 4.3.3 Quy trình lọc thư spam tiếng Việt 4.3.3.1 Xây dựng từ điển từ đơn từ ghép Hình 4.7 – Xây dựng từ điển từ tiếng Việt Quy trình thực gồm bước sau + Bên trái lựa chọn thư mục chứa tài liệu tiếng Việt phục vụ cho trình học từ vựng Ở sử dụng 800 tài liệu tiếng Việt thu thập mạng Internet, tài liệu 150 từ + Thanh tiến trình để người dùng nhận biết diễn tiến trình học từ vựng tiếng Việt + Có chứa chính: phân tích từ đơn phân tích từ ghép + Bảng thơng tin chung phía dùng để hiển thị kết quả: + Tổng số tài liệu sử dụng trình xây dựng từ điển + Số lượng từ đơn học : 4506 + Số lượng từ ghép tiếng học được: 11980 4.3.3.2 Chuẩn hóa từ điển tiếng Việt Gồm chức sau + Đối với từ đơn: hiển thị danh sách từ đơn tự điển, cho phép loại bỏ từ đơn khơng có ý nghĩa hay thêm vào từ bị loại bỏ nhầm Ngồi cịn chức tìm kiếm từ đơn theo ký tự bắt đầu 67 + Đối với từ ghép: có chức tìm kiếm từ ghép dựa từ đơn vị trí cùa từ đơn từ ghép: vị trí hay vị trí Ngồi ra, cịn có chức loại bỏ từ khơng có ý nghĩa hay thay đồi trạng thái sử dụng từ ghép + Chức hiển thị danh sách từ ghép chuẩn từ điển Hình 4.8 – Chuẩn hóa từ điển tiếng Việt 4.3.3.3 Thể nội dung thư tiếng Việt Quy trình gồm bước sau + Chọn thư phân tích danh sách thư bên trái + Phần phía thể nội dung thư trước sau phân tích ( từ phân tích tơ đậm so với từ khác) + Có chức phân tích: phân tích từ đơn phân tích từ ghép + Phần phía chương trình thể danh sách từ đơn từ ghép phân tích với tần số xuất chúng chương trình 68 Hình 4.9– Quy trình phân tích thư tiếng Việt 4.3.3.4 Xây dựng tập huấn luyện cho trình lọc thư Hình 4.10 – Quy trình huấn luyện token tiếng Việt Gồm 02 trình huấn luyện + Huấn luyện token từ đơn cho thư spam thư tốt 69 + Huấn luyện token từ ghép cho thư spam thư tốt Quy trình thực + Chọn thư mục chứa tập thư cần huấn luyện token, sử dụng tập hợp gồm 385 thư spam 100 thư tốt tiếng Việt phục vụ q trình huấn luyện + Có 04 chức trình bày + Thanh tiến trình cho biết quy trình thực cơng việc Bảng thơng số phía thể + Đối với từ đơn: tổng số thư spam ham tham gia huấn luyện, số token từ đơn tham gia thư tốt thư spam + Đối với từ ghép: tổng số thư spam ham tham gia huấn luyện, số token từ ghép tham gia thư tốt thư spam + Tính xác suất thư spam cho token tìm trường hợp Kết đạt được: + Từ đơn: huấn luyện thư spam: 1771 từ, huấn luyện thư ham: 2776 từ + Từ ghép: huấn luyện thư spam: 3651 từ, huấn luyện thư ham: 4345 từ 4.3.3.5 Phân tích thư tiếng Việt Hình 4.11 – Quy trình phân tích thư tiếng Việt 70 Hình 4.12 – Kết phân tích thư tiếng Việt Chức phân tích thư gồm có: + Phân tích thư dựa từ đơn, từ ghép, vừa từ đơn từ ghép + Ứng với cách phân tích cho có quả: 10 token có trọng số spam cao, xác suất spam trung bình thư phân lớp thư thuộc thưn spam hay thư ham 4.3.4 Các hàm phục vụ chương trình 4.3.4.1 Chức tách câu đơn cho nội dung thư tiếng Việt Hình 4-13 Tách câu đơn cho nội dung thư tiếng Việt Quy trình thực Chọn thư tiếng Việt cần phân tích câu phía bên tay trái 71 + Chức chính: Tinh chỉnh nội dung tách câu đơn + Phía bên phải gồm phần + Phần 1: thể nội dung thư cần phân tích + Phần 2: thể nội dung chuẩn hóa + Phần 3: Thể câu đơn có nội dung 4.3.4.2 Chức tạo thư chứa nội dung Quy trình thực + Phần chứa nội dung thư thu thập từ m Internet + Phía dùng để chọn thư mục lưu thư vừa tạo + Các chức chính: nút hiệu chỉnh dùng để hiệu chỉnh nội dung vừa đưa vào, nút thực dùng để tạo nội dung, + Bên cạnh đó, thể số lượng tài liệu tạo Hình 4.14- Tạo thư chứa nội dung từ Internet 72 4.3.5 Các chức tổng quát liên quan đến hệ thống 4.3.5.1 Quản lý thông số chung hệ thống Hình 4-15 Quản lý thơng số chung hệ thống Có loại thơng số chính: + Thông số lọc spam tiếng Việt + Thông số lọc spam tiếng Anh Mỗi thông số cần quản lý thông tin + Đường dẫn lưu trữ thư spam sau phân loại + Đường dẫn lưu trữ thư tốt sau phân loại + Số lượng token tốt cần lấy + Xác suất spam tối thiểu + Ngưỡng loại bỏ từ sử dụng ( tần số xuất từ tổng số thư huấn luyện) 73 4.3.6 Bộ lọc spam môi trường Internet 4.3.6.1 Chức gửi email Hình 4.16 – Chức gửi email Chức tương tự chức mail bình thường: bao gồm gửi cho ai, danh sách người nhận nội dung email Điểm đặc biệt hệ thống là: email gửi đi, lọc spam server tự động làm việc + Nếu email spam đưa vào thư mục spam người nhận + Nếu email thư bình thường đưa vào thư mục Inbox người nhận + Ngồi ra, lọc thư spam cịn có chức theo vết người sử dụng, nghĩa người dùng đăng nhập sau số lần email không đọc gán thư spam tự đdộng chuyển sang hộp Spam 4.3.6.2 Bộ lọc spam chương trình Hình 4.17 – Bộ lọc spam hệ thống 74 Chức hệ thống Các thư mục + Inbox : chứa thư bình thường + Draft: chứa thư nháp, chưa gửi + Sent: chứa thư mà người dùng gửi + Spam: chứa thư rác + Trash: thùng rác chứa thư bỏ White List , Black list: chứa danh sách địa người sử dụng + White List: người dùng nằm danh sách mặc định thư đưa vào hộp Inbox mà không cần qua lọc spam chương trình + Black List: người dùng nằm danh sách mặc định thư đưa vào hộp Spam mà không cần qua lọc chương trình + Infromation: cài đặt thơng số chức riêng chương trình Thơng số dùng để thể tính thơng minh chương trình: Nếu email nằm hộp Inbox sau lần check mail mà ngưởi dùng khơng mở xem mặc định email chuyển sang hộp Spam mà khơng cần hỏi người sử dụng, giảm thời gian check mail người dùng 4.4.Kết thực ngiệm đánh giá kết đạt 4.4.1 Đối với thư spam tiếng Anh Để bắt đầu trình thử nghiệm lọc thư spam tiếng Anh, tập trung 100 thư tiếng Anh tìm kiếm mạng Internet gồm 60 thư tốt 40 thư spam tham gia trình lọc thư Kết đạt được thể bảng thống kê bên Bảng 4.1 Kết phân loại thư tiếng Anh Kết phân loại Spam Ham 38/40 56/60 Độ xác Khoảng 95% Dựa vào kết bảng thống kê cho thấy rõ việc tiếp cận thuật toán Naïve Bayes việc lọc thư tiếng Anh cho hiệu khả quan Việc tiếp cận 75 dựa phân tích từ làm tiền đề cho việc lọc thư spam tiếng Việt sở từ vựng, bao gồm từ đơn từ ghép 4.4.2 Đối với thư spam tiếng Việt 4.4.2.1.Xây dựng tự điển tiếng Việt Dựa 800 tài liệu tiếng Việt tìm kiếm Internet, trung bình tài liệu có 150 từ Kết xây dựng từ điển dựa nguồn tài liệu đạt biểu bảng (việc kiểm tra tính sai từ thực thủ công) Bảng 4.2 Thống kê tự điển từ tiếng Việt Loại từ Từ đơn Từ ghép Thông số Tỉ lệ Số lượng từ 4506 >85% 11980 > 80% Bộ tự điển từ sử dụng lâu dài Q trình học từ có sẵn, điểm chủ yếu tìm kiếm tập huấn luyện vừa đủ lớn bao hàm chủ đề, lĩnh vực tiếng Việt để nâng cao tính xác cho tự điển 4.4.2.2 Kết phân lớp thư tiếng Việt Do tập huấn luyện phải thư tiếng Việt nên phải sử dụng thống kê Internet, mặt tìm email tiếng Việt, mặt khác xin giúp đỡ diễn đàn để thu thập email tiếng Việt Để tiến trình huấn luyện thuận lợi, tiến hành chia liệu thu thập thành 02 loại: thư rác thư bình thường Cuối cùng, thu thập liệu thử nghiệm gồm 385 thư rác 100 thư bình thường để bắt đầu tiến trình huấn luyện Thử nghiệm tìm token từ đơn, với tập huấn luyện trên, xác định 3042 token sử dụng Thử nghiệm tách từ ghép, tương tự tập huấn luyện trên, xác định được 5914 token từ ghép 76 Do lĩnh vực nghiên cứu tiếng Việt phong phú kinh tế, khoa học, xã hội, sức khỏe, thể thao… nên việc nghiên cứu ngữ nghĩa từ, câu phức tạp để xử lý xác nhiều thời gian Ngoài ra, theo thống kê bảng cho thấy từ ghép tiếng Việt chủ yếu loại từ có độ dài tiếng, việc tách từ chúng tơi thực cho từ ghép có độ dài tối đa tiếng Trong giới hạn đó, kết thực nghiệm phân loại 200 thư tiếng Việt (gồm 100 thư spam 100 thư ham) cách dựa vào tập huấn luyện từ đơn từ ghép thể bảng thống kê bên Bảng 4.3 Kết phân loại thư tiếng Việt Thử nghiệm Từ đơn Từ ghép Vừa từ đơn vừa từ ghép Kết phân loại Spam Ham 79/100 90/100 94/100 92/100 85/100 80/100 Độ xác Spam Ham 79% 90% 94% 92% 85% 80% Dựa kết thực nghiệm, cho thấy rõ việc lọc thư spam tiếng Việt theo từ ghép cho kết khả quan (94%) so với kết lọc theo từ đơn (79%) vừa từ đơn vừa từ ghép (85%) Điều phần thể hướng tiếp cận đề tài 77 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Đề tài đạt kết sau: - Tìm hiểu toán lọc thư spam, ảnh hưởng thư spam người sử dụng tài nguyên mạng - Tìm hiểu phương pháp lọc thống kê kỹ thuật nhằm tối ưu hóa bước lọc thư spam đặc biệt thuật tốn Nạve Bayes, từ chọn lọc kỹ thuật tối ưu để xây dựng chương trình lọc thư spam cho hiệu cao - Sử dụng phương pháp tách từ đơn, từ ghép dựa huấn luyện thư, đồng thời áp dụng thuật tốn Nạve Bayes để tiến hành lọc thư spam tiếng Việt - Đề xuất kỹ thuật tách câu, tách từ đơn từ ghép tiếng Việt - Xây dựng 02 chương trình thể hướng nghiên cứu, tiếp cận đề tài Điểm đề tài đề xuất phương pháp lọc thư rác sử dụng thuật tốn Bayes khơng phải dựa từ đơn tiếng Anh mà dựa từ đơn từ ghép tiếng Việt xây dựng hệ thống lọc thư rác có khả theo vết người sử dụng Kết thực nghiệm cho thấy hướng tiếp cận đề tài đạt độ xác cao phân loại thư rác tiếng Việt so với phương pháp Bayesian cổ điển dùng cho từ đơn tiếng Việt Hướng phát triển Xây dựng liệu bao quát lĩnh vực để thấy rõ hiệu lọc thư spam Tập huấn luyện lớn độ xác việc học từ đơn từ ghép nâng cao, góp phần lớn việc tính xác suất theo cơng thức Nạve Bayes Thư spam Việt Nam phức tạp, người dùng nhận thư spam tiếng Anh lẫn tiếng Việt Vì vậy, hướng nghiên cứu đưa phương pháp lọc thư rác thích hợp cho tiếng Anh lẫn tiếng Việt Tích hợp lọc vào hệ thống lọc thư spam trực tuyến 78 TÀI LIỆU THAM KHẢO [1] Amit Sharma ,Bayesian Mail Filter for detecting spam,2008 [2] Dinh Dien, “Tu Tieng Viet” , Proceeding of ICMLC2002 Conference, Beijing, November 2002 [3] Dinh Dien, Hoang Kiem, Nguyen Van Toan, “Vietnamese Word Semntation”, The sixth Natural Language Processing Pacific Rim Sympossium, Tokyo, Japan 2001 [4] D.Goldszmidt, Friedman, N.Geiger, Bayesian network classifiers Machine Learning, 2006 [5] Foo S., Li H, “Word Segmentation and Its Effect on Information Retrieval”, Information Processing & Management: Anh International Journal, 2004 [6] Graham, P., A plan for Spam, 2008 [7] H Nguyen, T Vu, N Tran, K Hoang , “Internet and Genertics Algorithm-base text Categorization for Documents in Vietnamese”, Research, Innovation and Vision of the Future, the 3rd International Conference in Computer Science, (RIVF 2005), Can Tho, Viet Nam 2005 [8] H David D Lewis, Ph.D.Ornarose, Inc & David D Lewis Consulting, Naive Bayes Text Classification for Spam Filtering , 2007 [9] Le An Ha, “A method for word segmnetation in Vietnamese”, Proceedings of Corpus Linguistics , Lancaster, UK, 2003 [10] Scott D.Anderson, “Combining Evidence using Bayes’ Rule”, 2008 [11] Yiming Yang Xin Liu , “A re-examination oftext categorization method” , School of computer science, Carnegie Mellon University , 2008 [12] http://www.securelist.com [13] http://www.pewinternet.org [14] http://www.dict.vietfun.com [15] http://www.vi.wikipedia.org [16] http://www.openspf.org

Ngày đăng: 20/06/2023, 10:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN