1. Trang chủ
  2. » Công Nghệ Thông Tin

slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên đề tài phân loại văn bản lọc thư rác

14 482 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 547,52 KB

Nội dung

X l ngôn ng tư nhiên Đ ti: Phân loi văn bn: Lc thư rc GVHD: PGS.TS Lê Thanh Hương Nhóm sinh viên thực hiện: 1. Trần Việt Đức – 20086084 2. Dương Nữ Nguyệt Linh – 20081516 3. Trương Công Trng Nghĩa – 20081877 4. Nguyễn Thị Minh Thùy – 20082598 5. Phn Văn Ton – 20082711 10/23/14 1 School of Infomation & Communication Technology - Ha Noi University Of Technology I. Giới thiệu • 1.1. Vấn đ Spam Email. • 1.2. Hc my. 10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 2 Tập d liệu (Data set) Tập th nghiệm (Test set) Tập học (Training set) Tập tối ưu (Validation set) Huấn luyện hệ thống Thử nghiệm hệ thống đã học Tối ưu hóa các tham số của hệ thống I. Giới thiệu • 1.3. Định lý Bayes. • P(h): Xc suất trước rằng gi thiết (phân lớp) h l đúng. • P(D): Xc suất trước rằng tập dữ liệu D được quan st(thu được). • P(D|h): Xc suất của việc quan st được(thu được) tập dữ liệu D, với điu kiện gi thiết h l đúng. • P(h|D): Xc suất của gi thiết h l đúng, với điu kiện tập dữ liệu D được quan st. • 1.4. Khi niệm “Token”: 10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 3 ( | ). ( ) ( | ) ( ) P D h P h P h D P D = II. Phân loại Naïve Bayes • 4.1. Tính xc suất spam của mỗi token phân tch. o Theo Paulgraham. o Số token tỉ lệ với số email. o Vậy ta có: 10/23/14 School of Infomation & Communication Technology - Ha Noi University Of Technology 4 ( , ) S S N s N p X w C spam s n N N = = = + ( , ) S S N s T p X w C spam s n T T = = = + II. Phân loại Naïve Bayes • Khi số lần 1 token xuất hiện lớn hơn số token phân biệt? • Khi token chỉ xuất hiện ở một kho? 10/23/14 School of Infomation & Communication Technology - Ha Noi University Of Technology 5 min(1, ) ( , ) min(1, ) min(1, ) S S N s T p X w C spam s n T T = = = + min(1, ) ( , ) ax , , min(1, ) min(1, ) S S N s T p X w C spam m M min N s n T T      ÷  ÷  ÷  ÷ = = =  ÷  ÷ +  ÷  ÷     II. Phân loại Naïve Bayes • Cuối cùng p dụng công thức naïve bayes. • Vậy xc suất một từ spam tính theo công thức. 10/23/14 School of Infomation & Communication Technology - Ha Noi University Of Technology 6 1 { , } 1 ( ). ( | ) ( | ) ( ). ( | ) n i i i n i i k spam ham i P C spam P X x C c P C spam X x P C k P X x C k = ∈ = = = = = = = = = = ∏ ∑ ∏ r r 1 { , } 1 ( ). ( | ) ( | ) ( ) ( | ) n i i i n i i k spam non spam i P C c P X x C c P C c X x P C k P X x C c = ∈ − = = = = = = = = = = ∏ ∑ ∏ uur r III. Các chỉ sô đánh giá hiệu quả phân loại mail. • 3.1. Spam Recall v Spam Precision. • 3.2. Tỉ lệ lỗi Error v Tỉ lệ chính xc Accuary. 10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 7 Re S S S S S N n n n → → → = + Pr S S S S N S n n n → → → = + N S S N N S n n Err N N → → + = + N N S S N S n n Acc N N → → + = + III. Các chỉ sô đánh giá hiệu quả phân loại mail. • 3.3. Tỉ lệ lỗi gia trng Weighted Error v tỉ lệ chính xc gia trng Weighted Accurary. • Chn � ngưỡng phân loi email: 10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 8 N N N N N S n n WAcc N N λ λ → → + = + N S S N N S n n WErr N N λ λ → → + = + III. Các chỉ sô đánh giá hiệu quả phân loại mail. • 3.4.1. Tỉ số chi phí tổng hợp. • Tỉ lệ chính xc gia trng trường hợp “ranh giới”. • Tỉ lệ lỗi gia trng trường hợp “ranh giới”. • Tỉ số chí phí tổng hợp. 10/23/14School of Infomation & Communication Technology - Ha Noi University Of Technology 9 b N N S N WAcc N N λ λ = + b S N S N WErr N N λ = + b S N S S N N WErr TCR WErr n n λ → → = = + IV. Th nghiệm • 5.1. Tập dữ liệu. o Nhóm em dùng kho dữ liệu email chữ. o Tập huấn luyện: • 922 email non-spam v 594 email spam. o Tỉ lệ: ≈ 0.64425. o Tập kiểm thử: • 73 smail non-spam v 47 email spam. o Tỉ lệ: ≈ 0.64384. • 5.2. Kết qu thực nghiệm. o Nếu ta chn ngưỡng phân loi email 0.5 tức l = 1 ngưỡng phân loi � o Qu trình thử nghiệm • Spam: cho ra 45 email cho ra l spam còn 2 email l non-spam. • Non-spam: cho ra 71 email non-spam v 1 email spam. • ( 10/23/14 School of Infomation & Communication Technology - Ha Noi University Of Technology 10 [...]...IV Thư nghiệm •   o o o o Tính các giá trị recall và precision Re = = 95.7% Pr = 97.8% Tỉ lệ lỗi và tỉ lệ chính xác • • o Acc = = 97.5% Err = = 2.5% Tỉ lệ lỗi gia trọng và tỉ lệ chính xác gia trọng • • Wacc = 97.5% WErr = 2.5% School of Infomation & Communication Technology - Ha Noi University Of Technology 10/23/14 11 IV Thư nghiệm School of Infomation & . X l ngôn ng tư nhiên Đ ti: Phân loi văn bn: Lc thư rc GVHD: PGS.TS Lê Thanh Hương Nhóm sinh viên thực hiện: 1. Trần Việt. spam. o Tỉ lệ: ≈ 0.64384. • 5.2. Kết qu thực nghiệm. o Nếu ta chn ngưỡng phân loi email 0.5 tức l = 1 ngưỡng phân loi � o Qu trình thử nghiệm • Spam: cho ra 45 email cho ra l spam còn 2 email. University Of Technology 3 ( | ). ( ) ( | ) ( ) P D h P h P h D P D = II. Phân loại Naïve Bayes • 4.1. Tính xc suất spam của mỗi token phân tch. o Theo Paulgraham. o Số token tỉ lệ với số email. o Vậy

Ngày đăng: 23/10/2014, 23:40

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w