Các bài báo được chia tạm thời vì tât cả các mục chọn luyện được thực hiện trước các mục chọn kiểm tra. Số lượng trung bình của các lớp qui định cho một bài báo là 1.2, cũng có nhiều bài báo không được phân vào lớp nào trong 118 lớp và nhiều bài báo được phân vào 12 lớp. Số lượng các bài báo trong một lớp
rất khác nhau. Bảng sau đây chỉ ra 10 lớp thường xuyên xuất hiện nhất theo số
lượng các mẫu luyện và các mẫu kiểm tra trong một lớp. Bảng liệt kê 10 lớp cho 75% các thí dụ luyện với phân còn lại phân bố vào 108 lớp
Bảng 1: Số lượng các mục chọn luyện và các mục chọn kiểm tra
Tênlớp | Số lượng mục chọn luyện | Số lượng mục thử nghiệm
Earn 2877 1087 Acq 1650 719 Money-fx | 538 179 Grain 433 149 Crude 389 189 Trade 389 118 Interest 347 131 Ship lết. 89 Wheat 212 71 Corn 182 $6
¡. Thời gian luyện
Thời gian luyện cho 9603 các mẫu luyện thay đổi cơ bản theo các phương pháp. Trên máy 266MHz Pentium II chạy trong môi trường Windows NT:
Eind Similar là phương pháp học nhanh nhất (<1 giây CPU/ lớp) bởi vì không có
sự tối thiểu hóa sai số rõ ràng. SVM tuyến tính (< 2 giây CPU/ lớp). Naive
Bayes và Bayes nets, Dicision tree thì thời gian luyện chậm hơn (khoảng 8 giây CPU/ lớp; 145 giây CPU/ lớp; 70 giây CPU/ lớp). Phương pháp SVM tuyến tính
với thuật toán SMO lấy trung bình khoảng 0.26 giây để luyện một lớp. Tốc độ
luyện của SVM tạo ấn tượng đặc biệt bởi vì tốc độ luyện là một trở ngại đối với các ứng dụng mở rộng của các vấn để lớn. Với kỹ thuật SVM, thuật toán SMO của Platt thì nhanh hơn thuật toán xác định cụm từ (chunking) của Vapnik (1995)
khoảng 30 lần và nhanh hơn thuật toán Decision trees khoảng 35 lần với tập dữ
liệu Reuters 21578.
ii. Tốc độ phân lớp đối với các dữ liệu mới
Trong nhiều trình ứng dụng việc phân lớp nhanh các dữ liệu mới là vấn đề quan trọng. Tất cả các phương pháp xây dựng hàm phân lớp được để cập trên đây đều thực hiện phân lớp dữ liệu mới rất nhanh (ít hơn 2 mili giây để quyết định phân