SVM Ứng dụng lọc email [22]

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 68)

Cơng trình này ứng dụng SVM trong phân lớp dữ liệu để lọc email: dựa vào nội dung email để sắp xếp chúng vào các thư mục được chỉ định trước của người dùng một cách tự động. Dựa vào các đánh giá của các phương pháp phân loại văn bản áp dụng thử nghiệm trên tiếng Anh: SVM là phương pháp thành cơng hơn các

phương pháp khác trong phân loại văn bản về tốc độ thực thi, tốc độ huấn luyện, tốc

độ xử lý dữ liệu và cĩ thể áp dụng SVM cho tập dữ liệu rất lớn, tác giả đã chọn

SVM để cài đặt cho ứng dụng của mình.

Trong cơng trình này, tác giảđã chọn thuật tốn SMO cĩ cải tiến để cài đặt

ứng dụng cho mơ hình SVM.

™ Mơ hình hĩa quá trình học

™ Mơ hình hĩa quá trình phân lớp Hình 15: Quá trình phân lớp ™ Kết quả thực nghiệm [22] • Số chiều véc tơ : 100 • Kết quả trên tập huấn luyện Số mail Tỷ lệ (%) Main class 46 92.95 Junk class 52 92.43

Bảng 2: Kết quả thử nghiệm trên tập huấn luyện

• Kết quả trên tập kiểm nghiệm [22]

Số mail thử Số mail nhận Chính xác Khơng chính xác Tỷ lệ

(%)

Main class 21 19 19 2 (Junk class) 90.5

Junk class 25 21 19 6 (Other class) 76

™ Đánh giá ưu khuyết điểm

Ưu điểm

♦ Xây dựng một ứng dụng cụ thể cho bài tốn phân loại văn bản, cĩ kết quả chấp nhận được.

Khuyết điểm

♦ Ứng dụng vẫn cịn mang tính thử nghiệm, chưa mang tính thực tiễn.

♦ Lọc email tiếng Việt cịn rất hạn chế vì chưa cĩ sử dụng hỗ trợ của kỹ thuật phân cụm từ tiếng Việt (tách từ tiếng Việt).

♦ Số phân lớp thử nghiệm cịn rất ít (khoảng 3 lớp: mail, junk, others)

Một phần của tài liệu TOÀN văn tìm KIẾM văn bản TIẾNG VIỆT THEO CHỦ đề (Trang 68)