Bài tập lớn môn Xử lý ngôn ngữ tự nhiên Đề tài 2 : Phân loại thư rác Nhóm : Đặng Văn Hùng Nguyễn Bích Ngọc Trịnh Thị Lan Phượng Voin Sophat... Cách tiếp cận giải quyết vấn đề Bài tốn
Trang 1Bài tập lớn môn Xử lý ngôn ngữ tự nhiên
Đề tài 2 : Phân loại thư rác
Nhóm : Đặng Văn Hùng
Nguyễn Bích Ngọc
Trịnh Thị Lan Phượng
Voin Sophat
Trang 2Mục lục
I Đặt vấn đề
II Cách tiếp cận giải quyết vấn đề
III Cài đặt
IV Thử nghiệm và đánh giá hệ thống
Trang 3I Đặt vấn đề
Là bước xử lý quan trọng đối với các hệ thống XLNNTN,đặc biệt là đối với việc
nhận thư
Phần lớn thư rác là những thư không đạt yêu cầu,không mong muốn và được gửi hàng loạt tới nhiều người nhận
Mục đích: Lọc thư để phân loại và loại bỏ các thư rác cho người nhận
Trang 4II Cách tiếp cận giải quyết vấn đề
Bài tốn phân loại thư rác cĩ các biện pháp chính như sau :
· Sử dụng DNS Blacklistb
· Sử dụng SURBL List
· Chặn IP.
Kiểm tra địa chỉ
Sử dụng bộ lọc Bayesian
Sử dụng danh sách Black/White list
Sử dụng Challenge/Response
Kiểm tra header
Report Spam Email.
Các phương pháp được sử dụng trong bài tốn phân loại thư
·Giải thuật Nạve Bayes phân loại thư rác.
Loại bỏ các từ StopWord.
Trang 5Các bước thực hiện
Xây dựng bộ từ vựng
Quá trình tiền xử lý loại bỏ
stopword,khoảng trắng,tiêu đề…
Quá trình học
Quá trình test
Kết quả và đánh giá
Trang 6III Cài đặt
Dữ liệu : các file dữ liệu ở định dạng eml
Ngôn ngữ : C#
Trang 7Quá trình tiền xử lý
o Với mỗi email đầu vào có định dạng eml sẽ trải qua bước tiền xử lý
để loại bỏ các từ Stopword ,khoảng trắng,tiêu đề lấy nội dung
email làm đầu vào cho hệ thống học và test.
o Việc loại bỏ stopword bằng cách so khớp hai xâu đầu vào với xâu mẫu trong bộ từ điển.lấy ra các từ có nghĩa trong nội dung thư.
Trang 8Giải thuật Nạve Bayes
Định lý bayes và giải thuật Nạve Bayes
P(h/D)=P(D/h).P(h)/P(D)
Trong đĩ:
P(h) : Xác xuất trước rằng giả thiết h là đúng
P(D) : Xác suất trước rằng tập dữ liệu D được quan sát.
P(D|h) : Xác suất việc quan sát được tập dữ liệu
D, với điều kiện giả thiết h đúng
Trang 9Giải thuật Nạve Bayes
Một bài tốn phân loại cĩ thể biểu diễn gồm cĩ:
Một tập học D_train trong đĩ mỗi ví dụ học x
được biểu diễn bằng 1 vector n chiều: (x1, ,xn)
Một tập nhãn xác định các lớp : C = {c0,c1}
Một ví dụ mới z sẽ được phân loại vào lớp nào.
Để xác định được phân lớp cĩ thể phù hợp nhất đối với ví dụ z, ta xác định bởi
ArgmaxP(z1,z2,…zn|ci).P(ci).
Trang 10Quá trình phân loại thư
Sau khi mail được đưa qua quá trình tiền xử lý.Các email sẽ được biểu diễn là tập các từ gốc.
Tính xác suất : Xác suất của thư rác và thư thường
So sánh 2 giá trị này ta có được kết luận:
Nếu P0>P1 thì đây là thư rác và ngược lại
Trang 11IV Thử nghiệm và đánh giá hệ thống
Qua thử nghiệm việc phân loại từng email,kết quả
chương trình là chính xác với dữ liệu mà ta sử dụng.
Đánh giá hiệu suất nhận dạng và phân loại thư
Trang 12Thử nghiệm
Trang 13Đánh giá
Kết quả thu được của chương trình là khá chính xác
Độ chính xác của hệ thống phụ thuộc
nhiều vào số lượng thư và giải thuật học
Trang 14Đề xuất
Cải tiến bộ dữ liệu mẫu và cách thức thu thập tốt hơn
Giải quyết một số nhập nhằng trong việc loại bỏ stopword
Trang 15Tài liệu tham khảo
Slide bài giảng môn xử lý ngôn ngữ tự
nhiên ( cô Lê Thanh Hương )
Trang web của Lê Hồng Phương)
Các khái niệm tham khảo :
www.wikipedia.org
Và một số tài liệu khác từ internet
Trang 16Thank you