1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình báo cáo đề tài phân loại thư, lọc thư rác áp dụng giải thuật naive bayes.

18 536 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 223,76 KB

Nội dung

Nội dungBài tốn phân loại văn bản, phân loại thư rác.. Bài toán phân loại thư rácLà bài toán phân loại văn bản, trong đó có 2 lớp : Thư hợp lệ và thư rác.. Tập tài liệu mẫu ban đầu là

Trang 1

Bài tập lớn mơn học:Xử lý ngơn ngữ tự nhiên

Đề tài: Phân loại thư, lọc thư rác áp dụng

giải thuật Nạve Bayes

Giảng viên hướng dẫn: PGS TS Lê Thanh Hương Sinh viên thực hiện:

Đặng Văn Oai 20081948 Đào Văn Long 20081576 Đinh Văn Đức 20080723 Đào Quang Đức 20080720 Lã Hữu Thành 20082375

Trang 2

Nội dung

Bài tốn phân loại văn bản, phân loại thư rác

Phương pháp phân loại văn bản Nạve Bayes

Cài đặt chương trình

Trang 3

Bài toán phân loại văn bản

Cho một tập các lớp đã định nghĩa : C = {c1,

c2, …, cn}

Tập văn bản đã được phân lớp: D = {d1, d2,

…, dm}

Cho một văn bản mới, phải chỉ ra văn bản này thuộc lớp nào ?

Trang 4

Bài toán phân loại thư rác

Là bài toán phân loại văn bản, trong đó có 2 lớp : Thư hợp lệ và thư rác

Tập tài liệu mẫu ban đầu là các thư đã được phân thành thư hợp lệ và thư rác

Văn bản cần phân lớp là email mới nhận

được

Trang 5

Một số phương pháp phân loại

Phương pháp SVM

Phương pháp k-NN

Phương pháp Nạve Bayes

Trang 6

Phương pháp Nạve Bayes

Cơ sở lý thuyết

Thuật tốn phân loại Nạve Bayes

Áp dụng vào phân loại thư điện tử

Trang 7

Cơ sở lý thuyết

Dựa trên định lý Bayes về xác suất có điều kiện:

Hay

Trang 8

Thuật tốn phân loại Nạve Bayes

Coi các từ xuất hiện trong một văn bản là độc lập thống kê

Tài liệu d cần phân loại, tính xác suất d thuộc vào lớp văn bản ci

Trang 9

Thuật tốn phân loại Nạve Bayes

Tài liệu d sẽ được gán cho lớp văn bản nào cĩ xác suất hậu nghiệm cao nhất

C* là lớp của văn bản d :

Trang 10

Thuật tốn phân loại Nạve Bayes

Vì xác suất của mỗi từ trong tài liệu là độc lập với ngữ cảnh xuất hiện của từ và độc lập với

vị trí của từ trong tài liệu nên :

Trong đĩ : P(wj | ci) là xác suất xuất hiện của

từ wj trong lớp ci

Trang 11

Phân loại thư điện tử

Nội dung của thư gửi đến là content

Lớp thư rác ký hiệu là spam

Lớp thư hợp lệ ký hiệu là ham

Ta cần tính P(spam | content) là xác suất thư điện tử là thư rác

w1, w2,…, wn là các từ đặc trưng xuất hiện

trong nội dung thư

Trang 12

Phân loại thư điện tử

Xác suất thư này là thư rác được tính như

sau:

•P(spam) = (tổng số thư rác)/(tổng số thư)

•P(ham) = (tổng số thư hợp lệ)/(tổng số thư)

*P(wn|spam)

•P(content|ham)=P(w1|ham)*P(w2|ham)*…*P(wn| ham)

Trang 13

Phân loại thư điện tử

Nếu P(spam | content) lớn hơn ngưỡng t nào

đó thì kết luận thư này là thư rác

Ngược lại, là thư hợp lệ

Trang 14

Cài đặt chương trình

Tất cả thư hợp lệ được lưu trong file

HamMail.txt

Tất cả thư rác được lưu trong file

SpamMail.txt

File learn.txt lưu danh sách các từ và số lần xuất hiện từ đó trong lớp thư hợp lệ và thư rác,phục vụ cho việc phân loại

Trang 15

Cài đặt chương trình

Trang 18

Kết luận

Kết quả đạt được:

tử.

Hạn chế:

thông thường.

thư, chưa kết hợp được lọc thư qua địa chỉ

người gửi và tiêu đề thư.

Ngày đăng: 23/10/2014, 23:36

TỪ KHÓA LIÊN QUAN

w