Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 16 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
16
Dung lượng
217,5 KB
Nội dung
Bài tập lớn môn Xử lý ngôn ngữ tự nhiên Đề tài : Phân loại thư rác Nhóm : Đặng Văn Hùng Nguyễn Bích Ngọc Trịnh Thị Lan Phượng Voin Sophat Mục lục I II III IV Đặt vấn đề Cách tiếp cận giải vấn đề Cài đặt Thử nghiệm đánh giá hệ thống I Đặt vấn đề Là bước xử lý quan trọng hệ thống XLNNTN,đặc biệt việc nhận thư Phần lớn thư rác thư không đạt yêu cầu,không mong muốn gửi hàng loạt tới nhiều người nhận Mục đích: Lọc thư để phân loại loại bỏ thư rác cho người nhận II Cách tiếp cận giải vấn đề Bài tốn phân loại thư rác có biện pháp sau : · Sử dụng DNS Blacklistb · Sử dụng SURBL List · Chặn IP Kiểm tra địa Sử dụng lọc Bayesian Sử dụng danh sách Black/White list Sử dụng Challenge/Response Kiểm tra header Report Spam Email Các phương pháp sử dụng toán phân loại thư ·Giải thuật Naïve Bayes phân loại thư rác Loại bỏ từ StopWord Các bước thực Xây dựng từ vựng Quá trình tiền xử lý loại bỏ stopword,khoảng trắng,tiêu đề… Quá trình học Quá trình test Kết đánh giá III Cài đặt Dữ liệu : file liệu định dạng eml Ngôn ngữ : C# Quá trình tiền xử lý o Với email đầu vào có định dạng eml trải qua bước tiền xử lý để loại bỏ từ Stopword ,khoảng trắng,tiêu đề lấy nội dung email làm đầu vào cho hệ thống học test o Việc loại bỏ stopword cách so khớp hai xâu đầu vào với xâu mẫu từ điển.lấy từ có nghĩa nội dung thư Giải thuật Naïve Bayes Định lý bayes giải thuật Naïve Bayes P(h/D)=P(D/h).P(h)/P(D) Trong đó: P(h) : Xác xuất trước giả thiết h P(D) : Xác suất trước tập liệu D quan sát P(D|h) : Xác suất việc quan sát tập liệu D, với điều kiện giả thiết h Giải thuật Naïve Bayes Một tốn phân loại biểu diễn gồm có: Một tập học D_train ví dụ học x biểu diễn vector n chiều: (x1, ,xn) Một tập nhãn xác định lớp : C = {c0,c1} Một ví dụ z phân loại vào lớp Để xác định phân lớp phù hợp ví dụ z, ta xác định ArgmaxP(z1,z2,…zn|ci).P(ci) Quá trình phân loại thư Sau mail đưa qua trình tiền xử lý.Các email biểu diễn tập từ gốc Tính xác suất : Xác suất thư rác thư thường So sánh giá trị ta có kết luận: Nếu P0>P1 thư rác ngược lại IV Thử nghiệm đánh giá hệ thống Qua thử nghiệm việc phân loại email,kết chương trình xác với liệu mà ta sử dụng Đánh giá hiệu suất nhận dạng phân loại thư Thử nghiệm Đánh giá Kết thu chương trình xác Độ xác hệ thống phụ thuộc nhiều vào số lượng thư giải thuật học Đề xuất Cải tiến liệu mẫu cách thức thu thập tốt Giải số nhập nhằng việc loại bỏ stopword Tài liệu tham khảo Slide giảng môn xử lý ngôn ngữ tự nhiên ( cô Lê Thanh Hương ) http://www.loria.fr/~lehong/softwares.php ( Trang web Lê Hồng Phương) Các khái niệm tham khảo : www.wikipedia.org Và số tài liệu khác từ internet Thank you ... địa Sử dụng lọc Bayesian Sử dụng danh sách Black/White list Sử dụng Challenge/Response Kiểm tra header Report Spam Email Các phương pháp sử dụng toán phân loại thư ·Giải thuật Naïve Bayes. .. nhận Mục đích: Lọc thư để phân loại loại bỏ thư rác cho người nhận II Cách tiếp cận giải vấn đề Bài tốn phân loại thư rác có biện pháp sau : · Sử dụng DNS Blacklistb · Sử dụng SURBL List... Quá trình phân loại thư Sau mail đưa qua trình tiền xử lý.Các email biểu diễn tập từ gốc Tính xác suất : Xác suất thư rác thư thường So sánh giá trị ta có kết luận: Nếu P0>P1 thư rác