Nội dungBài tốn phân loại văn bản, phân loại thư rác.. Bài toán phân loại thư rácLà bài toán phân loại văn bản, trong đó có 2 lớp : Thư hợp lệ và thư rác.. Tập tài liệu mẫu ban đầu là
Trang 1Bài tập lớn mơn học:Xử lý ngơn ngữ tự nhiên
Đề tài: Phân loại thư, lọc thư rác áp dụng
giải thuật Nạve Bayes
Giảng viên hướng dẫn: PGS TS Lê Thanh Hương Sinh viên thực hiện:
Đặng Văn Oai 20081948 Đào Văn Long 20081576 Đinh Văn Đức 20080723 Đào Quang Đức 20080720 Lã Hữu Thành 20082375
Trang 2Nội dung
Bài tốn phân loại văn bản, phân loại thư rác
Phương pháp phân loại văn bản Nạve Bayes
Cài đặt chương trình
Trang 3Bài toán phân loại văn bản
Cho một tập các lớp đã định nghĩa : C = {c1,
c2, …, cn}
Tập văn bản đã được phân lớp: D = {d1, d2,
…, dm}
Cho một văn bản mới, phải chỉ ra văn bản này thuộc lớp nào ?
Trang 4Bài toán phân loại thư rác
Là bài toán phân loại văn bản, trong đó có 2 lớp : Thư hợp lệ và thư rác
Tập tài liệu mẫu ban đầu là các thư đã được phân thành thư hợp lệ và thư rác
Văn bản cần phân lớp là email mới nhận
được
Trang 5Một số phương pháp phân loại
Phương pháp SVM
Phương pháp k-NN
Phương pháp Nạve Bayes
Trang 6Phương pháp Nạve Bayes
Cơ sở lý thuyết
Thuật tốn phân loại Nạve Bayes
Áp dụng vào phân loại thư điện tử
Trang 7Cơ sở lý thuyết
Dựa trên định lý Bayes về xác suất có điều kiện:
Hay
Trang 8Thuật tốn phân loại Nạve Bayes
Coi các từ xuất hiện trong một văn bản là độc lập thống kê
Tài liệu d cần phân loại, tính xác suất d thuộc vào lớp văn bản ci
Trang 9Thuật tốn phân loại Nạve Bayes
Tài liệu d sẽ được gán cho lớp văn bản nào cĩ xác suất hậu nghiệm cao nhất
C* là lớp của văn bản d :
Trang 10Thuật tốn phân loại Nạve Bayes
Vì xác suất của mỗi từ trong tài liệu là độc lập với ngữ cảnh xuất hiện của từ và độc lập với
vị trí của từ trong tài liệu nên :
Trong đĩ : P(wj | ci) là xác suất xuất hiện của
từ wj trong lớp ci
Trang 11Phân loại thư điện tử
Nội dung của thư gửi đến là content
Lớp thư rác ký hiệu là spam
Lớp thư hợp lệ ký hiệu là ham
Ta cần tính P(spam | content) là xác suất thư điện tử là thư rác
w1, w2,…, wn là các từ đặc trưng xuất hiện
trong nội dung thư
Trang 12Phân loại thư điện tử
Xác suất thư này là thư rác được tính như
sau:
•P(spam) = (tổng số thư rác)/(tổng số thư)
•P(ham) = (tổng số thư hợp lệ)/(tổng số thư)
*P(wn|spam)
•P(content|ham)=P(w1|ham)*P(w2|ham)*…*P(wn| ham)
Trang 13Phân loại thư điện tử
Nếu P(spam | content) lớn hơn ngưỡng t nào
đó thì kết luận thư này là thư rác
Ngược lại, là thư hợp lệ
Trang 14Cài đặt chương trình
Tất cả thư hợp lệ được lưu trong file
HamMail.txt
Tất cả thư rác được lưu trong file
SpamMail.txt
File learn.txt lưu danh sách các từ và số lần xuất hiện từ đó trong lớp thư hợp lệ và thư rác,phục vụ cho việc phân loại
Trang 15Cài đặt chương trình
Trang 18Kết luận
Kết quả đạt được:
tử.
Hạn chế:
thông thường.
thư, chưa kết hợp được lọc thư qua địa chỉ
người gửi và tiêu đề thư.