Kết quả phân loại với Naive Bayes

Một phần của tài liệu Phân loại văn bản tin tức dùng máy vec-tơ hỗ trợ (Trang 25 - 26)

fi(x )= wiix + b

3.4.2. Kết quả phân loại với Naive Bayes

Sử dụng thƣ viện mã nguồn mở, thuật tốn Naive Bayes đƣợc cài đặt và đánh giá trên cùng tập dữ liệu huấn luyện và kiểm thử, kịch bản nhƣ trên thuật tốn SVM. Cho độ lớn vec-tơ đặc trƣng các giá trị 500, 1000, 2000, 3000, 4000. Kết quả cụ thể nhƣ trong bảng 3.5 Số chiều Thuật tốn 500 1000 2000 3000 4000 Naive Bayes 0.75 0.77 0.75 0.75 0.73 SVM Linear 0.81 0.84 0.86 0.87 0.87

Bảng 3.5 So sánh kết quả phân loại Nạve Bayes và SVM Linear

Cùng bộ dƣ liệu training và testing thì thuật tốn SVM Linear cho kết quả tốt hơn và ổn định hơn thuật tốn Naive Bayes. Điều này cĩ thể giải thích do ƣu điểm của SVM phù hợp cho các bài tốn phân loại với số chiều cao.

3.5. Đánh giá

Với mơ hình đã xây dựng, tập dữ liệu văn bản tin tức huấn luyện đƣợc chia thành 9 chủ đề với số lƣợng khác nhau. Quá trình kiểm nghiệm các mơ hình học máy dùng thuật tốn SVM với các hàm nhân cho các kết quả tƣơng đối giống nhau về độ chính xác khi thay đổi độ lớn tối đa vec-tơ đặt trƣng. Tỷ lệ chính xác đạt cao nhất với hàm nhân tuyến tính (linear) đạt 87%. Cùng bộ dữ liệu thì SVM cho kết quả tốt hơn và ổn định hơn phƣơng pháp Nạve Bayes.

Thuật tốn SVM tỏ ra phù hợp cho bài tốn phân loại tin tức, trong thử nghiệm SVM cho độ chính xác phân loại là 87% cĩ thể chấp nhận đƣợc trong điều kiện thực tế. Để nâng cao độ chính xác, theo tơi cần tiếp tục cải tiến khâu tiền xử lý văn bản và xây dựng các mẫu huấn luyện tiêu chuẩn cho bài tốn phân loại tin tức.

Các kết quả trên cũng cho thấy rằng, việc sử dụng kỹ thuật xử lý văn bản và mơ hình phân lớp SVM đối với bài tốn phân loại tin tức văn bản là cĩ hiệu quả.

Một phần của tài liệu Phân loại văn bản tin tức dùng máy vec-tơ hỗ trợ (Trang 25 - 26)

Tải bản đầy đủ (PDF)

(26 trang)