Dữ liệu huấn luyện và kiểm thử

Một phần của tài liệu xây dựng hệ thống phân loại văn bản tiếng việt sử dụng phương pháp máy véc-tơ hỗ trợ kết hợp các phương pháp tối ưu kích thước dữ liệu (Trang 30 - 39)

Đồ thị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản tách thành các từ sử dụng hàm nhân RBF (mũ=1.5)

Đồ thị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản tách thành các từ sử dụng hàm nhân RBF (mũ=1.5) và thuật toán giảm chiều

Đồ thị. Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các từ sử dụng thuật toán giảm chiều Centroid

Đồ thị. Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các từ sử dụng thuật toán giảm

Đồ thị. Độ chính xác phân loại trung bình trong 4 trường hợp SVM kết hợp với (Full, Centroid, Orthogonal Centroid, LSI/SVD) khi dữ liệu văn bản được tách thành các từ.

Đồ thị. Độ chính xác phân loại trung bình trong 4 trường hợp SVM kết hợp với (Full, Centroid, Orthogonal Centroid, LSI/SVD) khi dữ liệu văn

Kết luận

• Thời gian thực hiện thuật toán chúng ta thấy rằng các phương pháp giảm chiều Centroid, Orthogonal Centroid kết hợp trong phân loại văn bản cho kết quả khá tốt mà thời gian thực hiện ít hơn rất nhiều nhiều so với khi sử dụng phương pháp Lantent semantic index giảm chiều đặc trưng.

• Kết quả độ phân loại chính xác trong hai trường hợp

dựa vào đặc điểm của tiếng Việt (âm tiết và từ) là xấp xỉ tương đương nhau điều này chứng tỏ nếu bỏ qua bài toán tách từ văn bản tiếng Việt bằng cách tách văn bản theo âm tiết giống văn bản tiếng Anh thì kết quả phân loại văn bản tiếng Việt vẫn cho kết quả tốt.

Một phần của tài liệu xây dựng hệ thống phân loại văn bản tiếng việt sử dụng phương pháp máy véc-tơ hỗ trợ kết hợp các phương pháp tối ưu kích thước dữ liệu (Trang 30 - 39)

Tải bản đầy đủ (PPT)

(39 trang)