còn lại (3299 bài báo) dùng để kiểm tra độ chính x- 123docz.net

Các bài báo được chia tạm thời vì tât cả các mục chọn luyện được thực hiện trước các mục chọn kiểm tra. Số lượng trung bình của các lớp qui định cho một bài báo là 1.2, cũng có nhiều bài báo không được phân vào lớp nào trong 118 lớp và nhiều bài báo được phân vào 12 lớp. Số lượng các bài báo trong một lớp

rất khác nhau. Bảng sau đây chỉ ra 10 lớp thường xuyên xuất hiện nhất theo số

lượng các mẫu luyện và các mẫu kiểm tra trong một lớp. Bảng liệt kê 10 lớp cho 75% các thí dụ luyện với phân còn lại phân bố vào 108 lớp

Bảng 1: Số lượng các mục chọn luyện và các mục chọn kiểm tra

Tênlớp | Số lượng mục chọn luyện | Số lượng mục thử nghiệm

Earn 2877 1087 Acq 1650 719 Money-fx | 538 179 Grain 433 149 Crude 389 189 Trade 389 118 Interest 347 131 Ship lết. 89 Wheat 212 71 Corn 182 $6

¡. Thời gian luyện

Thời gian luyện cho 9603 các mẫu luyện thay đổi cơ bản theo các phương pháp. Trên máy 266MHz Pentium II chạy trong môi trường Windows NT:

Eind Similar là phương pháp học nhanh nhất (<1 giây CPU/ lớp) bởi vì không có

sự tối thiểu hóa sai số rõ ràng. SVM tuyến tính (< 2 giây CPU/ lớp). Naive

Bayes và Bayes nets, Dicision tree thì thời gian luyện chậm hơn (khoảng 8 giây CPU/ lớp; 145 giây CPU/ lớp; 70 giây CPU/ lớp). Phương pháp SVM tuyến tính

với thuật toán SMO lấy trung bình khoảng 0.26 giây để luyện một lớp. Tốc độ

luyện của SVM tạo ấn tượng đặc biệt bởi vì tốc độ luyện là một trở ngại đối với các ứng dụng mở rộng của các vấn để lớn. Với kỹ thuật SVM, thuật toán SMO của Platt thì nhanh hơn thuật toán xác định cụm từ (chunking) của Vapnik (1995)

khoảng 30 lần và nhanh hơn thuật toán Decision trees khoảng 35 lần với tập dữ

liệu Reuters 21578.

ii. Tốc độ phân lớp đối với các dữ liệu mới

Trong nhiều trình ứng dụng việc phân lớp nhanh các dữ liệu mới là vấn đề quan trọng. Tất cả các phương pháp xây dựng hàm phân lớp được để cập trên đây đều thực hiện phân lớp dữ liệu mới rất nhanh (ít hơn 2 mili giây để quyết định phân

Còn lại (3299 bài báo) dùng để kiểm tra độ chính xác của các-mô hình kết quả.