1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thống kê số lần xuất hiện của từ khóa trong văn bản

9 629 3

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 834,56 KB

Nội dung

Thống kê số lần xuất hiện của từ khóa trong văn bản Lọc và thống kê thông tin và hệ thống lọc và thống kê thông tin Lọc và thống kê thông tin theo từ khóa Thuật toán Bayesian và ứng dụng trong lọc spam mail Chương trình Trước khi Internet ra đời, đã có một số phương pháp lọc thông tin Với sự ra đời của Internet, bất kể ai cũng có thể cung cấp thông tin nhanh với chi phí thấp. Với sự ra đời và tăng nhanh của thông tin dạng điện tử, thì vấn đề về lọc thông tin một cách tự động trở nên quan trọng

Thống kê số lần xuất hiện của từ khóa trong văn bản GV: PGS.TS Trịnh Nhật Tiến HV: Lê Xuân Thành Mã HV: 13025180 Mật mã và An toàn dữ liệu - 5/2014 Đại học Công Nghệ - ĐH QGHN Nội dung 1. Lọc và thống kê thông tin và hệ thống lọc và thống kê thông tin 2. Lọc và thống kê thông tin theo từ khóa 3. Thuật toán Bayesian và ứng dụng trong lọc spam mail 4. Chương trình • Trước khi Internet ra đời, đã có một số phương pháp lọc thông tin • Với sự ra đời của Internet, bất kể ai cũng có thể cung cấp thông tin nhanh với chi phí thấp. • Với sự ra đời và tăng nhanh của thông tin dạng điện tử, thì vấn đề về lọc thông tin một cách tự động trở nên quan trọng • Lọc thông tin là lĩnh vực nghiên cứu các quá trình cung cấp thông tin thích hợp, ngăn ngừa và loại bỏ thông tin không thích hợp cho người sử dụng Lọc và thống kê thông tin và hệ thống lọc thông tin Lọc và thống kê thông tin theo từ khóa • Từ khóa là một chuỗi các ký tự (như một từ, một cụm từ hoặc từ viết tắt). Lọc thông tin theo từ khóa cho phép bạn ngăn chặn những trang web, những email, … có nội dung không phù hợp • Nhược điểm: chỉ kiểm tra nội dung dạng văn bản, không thực hiện kiểm tra đối với các hình ảnh Thuật toán Bayes và ứng dụng lọc spam mail • Bộ lọc Bayesian hoạt động dựa trên định lý Bayes để tính toán xác suất xảy ra một sự kiện dựa vào những sự kiện xảy ra trước đó • Trước khi có thể lọc email bằng bộ lọc Bayesian, người dùng cần tạo ra cơ sở dữ liệu từ khóa và dấu hiệu . • Mỗi từ hoặc mỗi dấu hiệu sẽ được cho một giá trị xác suất xuất hiện, giá trị này dựa trên việc tính toán có bao nhiêu từ thường hay sử dụng trong spam, mà trong các email hợp lệ thường không sử dụng Công thức tính xác suất của giải thuật Bayes • Xác suất để một tài liệu di thuộc vào lớp văn bản ck )( )|(*)( )|( i kik ik dP cdPcP dcP = Công thức tính xác suất của giải thuật Bayes • Ý tưởng dựa trên xác suất xuất hiện của một từ hay cụm từ trên một lớp mail. • Xác suất một email là thư rác: Trong đó :  - c1 là lớp thư rác, c2 là lớp thư hợp lệ  - x là một email bất kì )(*)|()(*)|( )(*)|( )|( 2211 11 1 cPcxPcPcxP cPcxP xcP + = Biểu diễn từ khóa(đặc trưng) sender subject content content Đếm và loại spamword Loại stopword Tách từ đơn Tập từ khóa (đặc trưng) Tập spamword DEMO

Ngày đăng: 19/10/2014, 20:35

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w