1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình báo cáo đề tài xây dựng chương trình lọc thư rác sử dụng phương pháp naïve bayes

16 784 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 16
Dung lượng 217,5 KB

Nội dung

Bài tập lớn môn Xử lý ngôn ngữ tự nhiên Đề tài : Phân loại thư rác Nhóm : Đặng Văn Hùng Nguyễn Bích Ngọc Trịnh Thị Lan Phượng Voin Sophat Mục lục I II III IV Đặt vấn đề Cách tiếp cận giải vấn đề Cài đặt Thử nghiệm đánh giá hệ thống I Đặt vấn đề  Là bước xử lý quan trọng hệ thống XLNNTN,đặc biệt việc nhận thư  Phần lớn thư rác thư không đạt yêu cầu,không mong muốn gửi hàng loạt tới nhiều người nhận  Mục đích: Lọc thư để phân loại loại bỏ thư rác cho người nhận II Cách tiếp cận giải vấn đề  Bài tốn phân loại thư rác có biện pháp sau : · Sử dụng DNS Blacklistb · Sử dụng SURBL List · Chặn IP Kiểm tra địa Sử dụng lọc Bayesian Sử dụng danh sách Black/White list Sử dụng Challenge/Response Kiểm tra header Report Spam Email  Các phương pháp sử dụng toán phân loại thư ·Giải thuật Naïve Bayes phân loại thư rác Loại bỏ từ StopWord Các bước thực  Xây dựng từ vựng  Quá trình tiền xử lý loại bỏ stopword,khoảng trắng,tiêu đề…  Quá trình học  Quá trình test  Kết đánh giá III Cài đặt  Dữ liệu : file liệu định dạng eml  Ngôn ngữ : C# Quá trình tiền xử lý o Với email đầu vào có định dạng eml trải qua bước tiền xử lý để loại bỏ từ Stopword ,khoảng trắng,tiêu đề lấy nội dung email làm đầu vào cho hệ thống học test o Việc loại bỏ stopword cách so khớp hai xâu đầu vào với xâu mẫu từ điển.lấy từ có nghĩa nội dung thư Giải thuật Naïve Bayes  Định lý bayes giải thuật Naïve Bayes  P(h/D)=P(D/h).P(h)/P(D)  Trong đó:  P(h) : Xác xuất trước giả thiết h  P(D) : Xác suất trước tập liệu D quan sát  P(D|h) : Xác suất việc quan sát tập liệu D, với điều kiện giả thiết h Giải thuật Naïve Bayes  Một tốn phân loại biểu diễn gồm có:  Một tập học D_train ví dụ học x biểu diễn vector n chiều: (x1, ,xn)  Một tập nhãn xác định lớp : C = {c0,c1}  Một ví dụ z phân loại vào lớp  Để xác định phân lớp phù hợp ví dụ z, ta xác định  ArgmaxP(z1,z2,…zn|ci).P(ci) Quá trình phân loại thư  Sau mail đưa qua trình tiền xử lý.Các email biểu diễn tập từ gốc  Tính xác suất : Xác suất thư rác thư thường  So sánh giá trị ta có kết luận:  Nếu P0>P1 thư rác ngược lại IV Thử nghiệm đánh giá hệ thống  Qua thử nghiệm việc phân loại email,kết chương trình xác với liệu mà ta sử dụng  Đánh giá hiệu suất nhận dạng phân loại thư Thử nghiệm Đánh giá  Kết thu chương trình xác  Độ xác hệ thống phụ thuộc nhiều vào số lượng thư giải thuật học Đề xuất  Cải tiến liệu mẫu cách thức thu thập tốt  Giải số nhập nhằng việc loại bỏ stopword Tài liệu tham khảo  Slide giảng môn xử lý ngôn ngữ tự nhiên ( cô Lê Thanh Hương )  http://www.loria.fr/~lehong/softwares.php ( Trang web Lê Hồng Phương)  Các khái niệm tham khảo : www.wikipedia.org  Và số tài liệu khác từ internet Thank you ... địa Sử dụng lọc Bayesian Sử dụng danh sách Black/White list Sử dụng Challenge/Response Kiểm tra header Report Spam Email  Các phương pháp sử dụng toán phân loại thư ·Giải thuật Naïve Bayes. .. nhận  Mục đích: Lọc thư để phân loại loại bỏ thư rác cho người nhận II Cách tiếp cận giải vấn đề  Bài tốn phân loại thư rác có biện pháp sau : · Sử dụng DNS Blacklistb · Sử dụng SURBL List... Quá trình phân loại thư  Sau mail đưa qua trình tiền xử lý.Các email biểu diễn tập từ gốc  Tính xác suất : Xác suất thư rác thư thường  So sánh giá trị ta có kết luận:  Nếu P0>P1 thư rác

Ngày đăng: 23/10/2014, 23:27

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w