slike thuyết trình báo cáo đề tài xây dựng chương trình lọc thư rác sử dụng phương pháp naïve bayes

Bài tập lớn môn Xử lý ngôn ngữ tự nhiên Đề tài 2 : Phân loại thư rác Nhóm : Đặng Văn Hùng Nguyễn Bích Ngọc Trịnh Thị Lan Phượng Voin Sophat... Cách tiếp cận giải quyết vấn đề Bài tốn

Trang 1

Bài tập lớn môn Xử lý ngôn ngữ tự nhiên

Đề tài 2 : Phân loại thư rác

Nhóm : Đặng Văn Hùng

Nguyễn Bích Ngọc

Trịnh Thị Lan Phượng

Voin Sophat

Trang 2

Mục lục

I Đặt vấn đề

II Cách tiếp cận giải quyết vấn đề

III Cài đặt

IV Thử nghiệm và đánh giá hệ thống

Trang 3

I Đặt vấn đề

Là bước xử lý quan trọng đối với các hệ thống XLNNTN,đặc biệt là đối với việc

nhận thư

Phần lớn thư rác là những thư không đạt yêu cầu,không mong muốn và được gửi hàng loạt tới nhiều người nhận

Mục đích: Lọc thư để phân loại và loại bỏ các thư rác cho người nhận

Trang 4

II Cách tiếp cận giải quyết vấn đề

 Bài tốn phân loại thư rác cĩ các biện pháp chính như sau :

· Sử dụng DNS Blacklistb

· Sử dụng SURBL List

· Chặn IP.

Kiểm tra địa chỉ

Sử dụng bộ lọc Bayesian

Sử dụng danh sách Black/White list

Sử dụng Challenge/Response

Kiểm tra header

Report Spam Email.

 Các phương pháp được sử dụng trong bài tốn phân loại thư

·Giải thuật Nạve Bayes phân loại thư rác.

Loại bỏ các từ StopWord.

Trang 5

Các bước thực hiện

Xây dựng bộ từ vựng

Quá trình tiền xử lý loại bỏ

stopword,khoảng trắng,tiêu đề…

 Quá trình học

Quá trình test

Kết quả và đánh giá

Trang 6

III Cài đặt

Dữ liệu : các file dữ liệu ở định dạng eml

Ngôn ngữ : C#

Trang 7

Quá trình tiền xử lý

o Với mỗi email đầu vào có định dạng eml sẽ trải qua bước tiền xử lý

để loại bỏ các từ Stopword ,khoảng trắng,tiêu đề lấy nội dung

email làm đầu vào cho hệ thống học và test.

o Việc loại bỏ stopword bằng cách so khớp hai xâu đầu vào với xâu mẫu trong bộ từ điển.lấy ra các từ có nghĩa trong nội dung thư.

Trang 8

Giải thuật Nạve Bayes

 Định lý bayes và giải thuật Nạve Bayes

 P(h/D)=P(D/h).P(h)/P(D)

 Trong đĩ:

P(h) : Xác xuất trước rằng giả thiết h là đúng

 P(D) : Xác suất trước rằng tập dữ liệu D được quan sát.

 P(D|h) : Xác suất việc quan sát được tập dữ liệu

D, với điều kiện giả thiết h đúng

Trang 9

Giải thuật Nạve Bayes

Một bài tốn phân loại cĩ thể biểu diễn gồm cĩ:

 Một tập học D_train trong đĩ mỗi ví dụ học x

được biểu diễn bằng 1 vector n chiều: (x1, ,xn)

 Một tập nhãn xác định các lớp : C = {c0,c1}

 Một ví dụ mới z sẽ được phân loại vào lớp nào.

 Để xác định được phân lớp cĩ thể phù hợp nhất đối với ví dụ z, ta xác định bởi

 ArgmaxP(z1,z2,…zn|ci).P(ci).

Trang 10

Quá trình phân loại thư

 Sau khi mail được đưa qua quá trình tiền xử lý.Các email sẽ được biểu diễn là tập các từ gốc.

 Tính xác suất : Xác suất của thư rác và thư thường

 So sánh 2 giá trị này ta có được kết luận:

 Nếu P0>P1 thì đây là thư rác và ngược lại

Trang 11

IV Thử nghiệm và đánh giá hệ thống

 Qua thử nghiệm việc phân loại từng email,kết quả

chương trình là chính xác với dữ liệu mà ta sử dụng.

 Đánh giá hiệu suất nhận dạng và phân loại thư

Trang 12

Thử nghiệm

Trang 13

Đánh giá

Kết quả thu được của chương trình là khá chính xác

Độ chính xác của hệ thống phụ thuộc

nhiều vào số lượng thư và giải thuật học

Trang 14

Đề xuất

Cải tiến bộ dữ liệu mẫu và cách thức thu thập tốt hơn

Giải quyết một số nhập nhằng trong việc loại bỏ stopword

Trang 15

Tài liệu tham khảo

Slide bài giảng môn xử lý ngôn ngữ tự

nhiên ( cô Lê Thanh Hương )

Trang web của Lê Hồng Phương)

Các khái niệm tham khảo :

www.wikipedia.org

Và một số tài liệu khác từ internet

Trang 16

Thank you

Định dạng
Số trang	16
Dung lượng	217,5 KB