bằng 0, giả sử rằng các mẫu riêng biệt (nếu có số- 123docz.net

phân chia thì không thể có được siêu phẳng phân chia duy nhất và không thể tìm

được siêu phẳng phân chia tối ưu). Một vài kỹ thuật thiết kế tìm số lượng tối ưu

các đặc trưng và các đặc trưng tốt nhất như ngưỡng đầu vào dữ liệu thường xuyên; sự tăng thêm thông tin; thông tin tương tác; cường độ thuật ngữ. Để lựa chọn tập con các đặc trưng thường người ta sử dụng tiêu chuẩn tăng dần thông

tin. Yang và Petersen nhận thấy rằng ngoại trừ sự tăng thêm thông tin tất cả các phương pháp lựa chọn đặc trưng khác giống nhau về bản chất và sự thực thi: khi số lượng các đặc trưng sử dụng giảm đi so với tổng số các đặc trưng, sự thực thi thử nghiệm được cải tiến và trường hợp số lượng các đặc trưng giảm thấp hơn một giá trị tiêu chuẩn, tỷ lệ sai số thử nghiệm tăng lên.

Thorsten Joachims thực hiện các thực nghiệm tương tự và so sánh 5 thuật toán học khác nhau để lựa chọn đặc trưng: Naive Bayes, Rochio, K-nearest neighbor, C4.5 và SVM cho kết quả là: số lượng tối ưu các đặc trưng ít hơn tổng số các đặc trưng trong các phương pháp Rochio, K-nearest neighbors, C4.5 ngoại trừ SVM

và Naive Bayes. Đối với SVM sử dụng tất cả các đặc trưng cho kết quả thực thi tốt hơn các kỹ thuật khác.

Khuyết điểm chủ yếu của việc tìm kiếm các đặc trưng là đòi hỏi tăng thêm thời

gian cho thuật toán luyện. Trong trường hợp sử dụng sự tăng thêm thông tin và

tăng thêm thông tin tương tác, các đặc trưng được sắp xếp theo phương pháp lựa chọn đặc trưng từ cao xuống thấp tỷ lệ tuyến tính theo số lượng các mẫu và số lượng các đặc trưng, sau đó để tìm số lượng đặc trưng tối ưu người ta phải áp

sai số nhỏ nhất. Vì vậy độ phức tạp của thuật toán tìm kiếm số lượng đặc trưng

tối ưu ít nhất là bình phương lần độ phức tạp của thuật toán học.

Trong vấn để lựa chọn các đặc trưng, kỹ thuật SVM cho phép sử dụng tất cả các đặc trưng mà kết quả thực thi tốt được xem như là một ưu điểm quan trọng

Bằng 0, giả sử rằng các mẫu riêng biệt (nếu có số lượng vô hạn các siêu phẳng phân chia thì không thể có được siêu phẳng phân chia duy nhất và không thể tìm