1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình báo cáo đề tài phân loại thư, lọc thư rác áp dụng giải thuật naive bayes.

18 536 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 223,76 KB

Nội dung

Bài tập lớn môn học:Xử lý ngôn ngữ tự nhiên Đề tài: Phân loại thư, lọc thư rác áp dụng giải thuật Naïve Bayes Giảng viên hướng dẫn: PGS TS Lê Thanh Hương Sinh viên thực hiện: Đặng Văn Oai 20081948 Đào Văn Long 20081576 Đinh Văn Đức 20080723 Đào Quang Đức 20080720 Lã Hữu Thành 20082375 Lớp: Hệ thống thơng tin K53 Nội dung  Bài tốn phân loại văn bản, phân loại thư rác  Phương pháp phân loại văn Nạve Bayes  Cài đặt chương trình Bài toán phân loại văn  Cho tập lớp định nghĩa : C = {c1, c2, …, cn}  Tập văn phân lớp: D = {d1, d2, …, dm}  Cho văn mới, phải văn thuộc lớp ? Bài toán phân loại thư rác  Là tốn phân loại văn bản, có lớp : Thư hợp lệ thư rác  Tập tài liệu mẫu ban đầu thư phân thành thư hợp lệ thư rác  Văn cần phân lớp email nhận Một số phương pháp phân loại  Phương pháp SVM  Phương pháp k-NN  Phương pháp Naïve Bayes Phương pháp Nạve Bayes  Cơ sở lý thuyết  Thuật tốn phân loại Naïve Bayes  Áp dụng vào phân loại thư điện tử Cơ sở lý thuyết  Dựa định lý Bayes xác suất có điều kiện:  Hay Thuật tốn phân loại Nạve Bayes  Coi từ xuất văn độc lập thống kê  Tài liệu d cần phân loại, tính xác suất d thuộc vào lớp văn ci Thuật tốn phân loại Nạve Bayes  Tài liệu d gán cho lớp văn có xác suất hậu nghiệm cao  C* lớp văn d : Thuật tốn phân loại Nạve Bayes  Vì xác suất từ tài liệu độc lập với ngữ cảnh xuất từ độc lập với vị trí từ tài liệu nên :  Trong : P(wj | ci) xác suất xuất từ wj lớp ci Phân loại thư điện tử  Nội dung thư gửi đến content  Lớp thư rác ký hiệu spam  Lớp thư hợp lệ ký hiệu ham  Ta cần tính P(spam | content) xác suất thư điện tử thư rác  w1, w2,…, wn từ đặc trưng xuất nội dung thư Phân loại thư điện tử  Xác suất thư thư rác tính sau: • P(spam) = (tổng số thư rác)/(tổng số thư) • P(ham) = (tổng số thư hợp lệ)/(tổng số thư) • P(content|spam)=P(w1|spam)*P(w2|spam)*…*P(wn| spam) • P(content|ham)=P(w1|ham)*P(w2|ham)*…*P(wn|ham) Phân loại thư điện tử  Nếu P(spam | content) lớn ngưỡng t kết luận thư thư rác  Ngược lại, thư hợp lệ Cài đặt chương trình  Tất thư hợp lệ lưu file HamMail.txt  Tất thư rác lưu file SpamMail.txt  File learn.txt lưu danh sách từ số lần xuất từ lớp thư hợp lệ thư rác,phục vụ cho việc phân loại Cài đặt chương trình Cài đặt chương trình Cài đặt chương trình Kết luận  Kết đạt được:  Cài đặt hương trình gửi nhận thư điện tử  Thực chức lọc thư rác tự động  Hạn chế:  Chỉ xử lý email định dạng text thông thường  Việc lọc thư rác dựa nội dung thư, chưa kết hợp lọc thư qua địa người gửi tiêu đề thư ... toán phân loại thư rác  Là toán phân loại văn bản, có lớp : Thư hợp lệ thư rác  Tập tài liệu mẫu ban đầu thư phân thành thư hợp lệ thư rác  Văn cần phân lớp email nhận Một số phương pháp phân. .. loại  Phương pháp SVM  Phương pháp k-NN  Phương pháp Naïve Bayes Phương pháp Naïve Bayes  Cơ sở lý thuyết  Thuật tốn phân loại Nạve Bayes  Áp dụng vào phân loại thư điện tử Cơ sở lý thuyết. .. Bài toán phân loại văn bản, phân loại thư rác  Phương pháp phân loại văn Nạve Bayes  Cài đặt chương trình Bài tốn phân loại văn  Cho tập lớp định nghĩa : C = {c1, c2, …, cn}  Tập văn phân lớp:

Ngày đăng: 23/10/2014, 23:36

TỪ KHÓA LIÊN QUAN

w