Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
547,52 KB
Nội dung
X l ngôn ng tư nhiên Đ ti: Phân loi văn bn: Lc thư rc GVHD: PGS.TS Lê Thanh Hương Nhóm sinh viên thực hiện: 1. Trần Việt Đức – 20086084 2. Dương Nữ Nguyệt Linh – 20081516 3. Trương Công Trng Nghĩa – 20081877 4. Nguyễn Thị Minh Thùy – 20082598 5. Phn Văn Ton – 20082711 10/23/14 1 School of Infomation & Communication Technology - Ha Noi University Of Technology I. Giới thiệu • 1.1. Vấn đ Spam Email. • 1.2. Hc my. 10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 2 Tập d liệu (Data set) Tập th nghiệm (Test set) Tập học (Training set) Tập tối ưu (Validation set) Huấn luyện hệ thống Thử nghiệm hệ thống đã học Tối ưu hóa các tham số của hệ thống I. Giới thiệu • 1.3. Định lý Bayes. • P(h): Xc suất trước rằng gi thiết (phân lớp) h l đúng. • P(D): Xc suất trước rằng tập dữ liệu D được quan st(thu được). • P(D|h): Xc suất của việc quan st được(thu được) tập dữ liệu D, với điu kiện gi thiết h l đúng. • P(h|D): Xc suất của gi thiết h l đúng, với điu kiện tập dữ liệu D được quan st. • 1.4. Khi niệm “Token”: 10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 3 ( | ). ( ) ( | ) ( ) P D h P h P h D P D = II. Phân loại Naïve Bayes • 4.1. Tính xc suất spam của mỗi token phân tch. o Theo Paulgraham. o Số token tỉ lệ với số email. o Vậy ta có: 10/23/14 School of Infomation & Communication Technology - Ha Noi University Of Technology 4 ( , ) S S N s N p X w C spam s n N N = = = + ( , ) S S N s T p X w C spam s n T T = = = + II. Phân loại Naïve Bayes • Khi số lần 1 token xuất hiện lớn hơn số token phân biệt? • Khi token chỉ xuất hiện ở một kho? 10/23/14 School of Infomation & Communication Technology - Ha Noi University Of Technology 5 min(1, ) ( , ) min(1, ) min(1, ) S S N s T p X w C spam s n T T = = = + min(1, ) ( , ) ax , , min(1, ) min(1, ) S S N s T p X w C spam m M min N s n T T ÷ ÷ ÷ ÷ = = = ÷ ÷ + ÷ ÷ II. Phân loại Naïve Bayes • Cuối cùng p dụng công thức naïve bayes. • Vậy xc suất một từ spam tính theo công thức. 10/23/14 School of Infomation & Communication Technology - Ha Noi University Of Technology 6 1 { , } 1 ( ). ( | ) ( | ) ( ). ( | ) n i i i n i i k spam ham i P C spam P X x C c P C spam X x P C k P X x C k = ∈ = = = = = = = = = = ∏ ∑ ∏ r r 1 { , } 1 ( ). ( | ) ( | ) ( ) ( | ) n i i i n i i k spam non spam i P C c P X x C c P C c X x P C k P X x C c = ∈ − = = = = = = = = = = ∏ ∑ ∏ uur r III. Các chỉ sô đánh giá hiệu quả phân loại mail. • 3.1. Spam Recall v Spam Precision. • 3.2. Tỉ lệ lỗi Error v Tỉ lệ chính xc Accuary. 10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 7 Re S S S S S N n n n → → → = + Pr S S S S N S n n n → → → = + N S S N N S n n Err N N → → + = + N N S S N S n n Acc N N → → + = + III. Các chỉ sô đánh giá hiệu quả phân loại mail. • 3.3. Tỉ lệ lỗi gia trng Weighted Error v tỉ lệ chính xc gia trng Weighted Accurary. • Chn � ngưỡng phân loi email: 10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 8 N N N N N S n n WAcc N N λ λ → → + = + N S S N N S n n WErr N N λ λ → → + = + III. Các chỉ sô đánh giá hiệu quả phân loại mail. • 3.4.1. Tỉ số chi phí tổng hợp. • Tỉ lệ chính xc gia trng trường hợp “ranh giới”. • Tỉ lệ lỗi gia trng trường hợp “ranh giới”. • Tỉ số chí phí tổng hợp. 10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 9 b N N S N WAcc N N λ λ = + b S N S N WErr N N λ = + b S N S S N N WErr TCR WErr n n λ → → = = + IV. Th nghiệm • 5.1. Tập dữ liệu. o Nhóm em dùng kho dữ liệu email chữ. o Tập huấn luyện: • 922 email non-spam v 594 email spam. o Tỉ lệ: ≈ 0.64425. o Tập kiểm thử: • 73 smail non-spam v 47 email spam. o Tỉ lệ: ≈ 0.64384. • 5.2. Kết qu thực nghiệm. o Nếu ta chn ngưỡng phân loi email 0.5 tức l = 1 ngưỡng phân loi � o Qu trình thử nghiệm • Spam: cho ra 45 email cho ra l spam còn 2 email l non-spam. • Non-spam: cho ra 71 email non-spam v 1 email spam. • ( 10/23/14 School of Infomation & Communication Technology - Ha Noi University Of Technology 10 [...]...IV Thư nghiệm • o o o o Tính các giá trị recall và precision Re = = 95.7% Pr = 97.8% Tỉ lệ lỗi và tỉ lệ chính xác • • o Acc = = 97.5% Err = = 2.5% Tỉ lệ lỗi gia trọng và tỉ lệ chính xác gia trọng • • Wacc = 97.5% WErr = 2.5% School of Infomation & Communication Technology - Ha Noi University Of Technology 10/23/14 11 IV Thư nghiệm School of Infomation & . X l ngôn ng tư nhiên Đ ti: Phân loi văn bn: Lc thư rc GVHD: PGS.TS Lê Thanh Hương Nhóm sinh viên thực hiện: 1. Trần Việt. spam. o Tỉ lệ: ≈ 0.64384. • 5.2. Kết qu thực nghiệm. o Nếu ta chn ngưỡng phân loi email 0.5 tức l = 1 ngưỡng phân loi � o Qu trình thử nghiệm • Spam: cho ra 45 email cho ra l spam còn 2 email. University Of Technology 3 ( | ). ( ) ( | ) ( ) P D h P h P h D P D = II. Phân loại Naïve Bayes • 4.1. Tính xc suất spam của mỗi token phân tch. o Theo Paulgraham. o Số token tỉ lệ với số email. o Vậy