d. Các ưu thế của SVM trong phân lớp văn bản
2.4.2. Thuật tốn FS-EM
Ở thuật tốn EM, việc trích chọn đặc trưng được xảy ra trước khi vịng lặp, các đặc trưng được trích ra từ tập dữ liệu được gán nhãn và khơng thay đởi sau mỗi lần lặp. Tuy nhiên, những đặc trưng này chỉ phù hợp với tập dữ liệu đã gán nhãn nhưng khơng hẳn phù hợp với dữ liệu chưa được gán nhãn. Vì vậy, ta đề xuất thêm một bước chọn đặc trưng trong quá trình lặp để đánh giá nhãn cần gán, ví dụ như sau mỗi vịng lặp, ta chọn lại đặc trưng cho tập dữ liệu. Như vậy, sau mỗi vịng lặp ta sẽ cĩ một tập đặc trưng mới ứng với dữ liệu chưa được gán nhãn.
Đầu tiên, thuật tốn FS-EM chọn một tập đặc trưng từ dữ liệu đã được gán nhãn DL và sau đĩ xây dựng bộ phân lớp dựa trên tập đặc trưng và dữ liệu đĩ. Phần dữ liệu đặc trưng được lấy ra từ các phương pháp TF-IDF, N-Grams. Sau đĩ, ta tiến hành phân loại mỗi văn bản d trong tập dữ liệu chưa được gán nhãn DU, thu được tập dữ liệu mới là DP. Ở bước 8, ta chọn ra tập đặc trưng mới dựa trên tập dữ liệu DP, và dựng được bộ phân lớp h mới tại bước 9. Vịng lặp dừng lại khi nhãn của bộ dữ liệu DP khơng thay đởi
Điểm yếu của thuật tốn FS-EM là việc xây dựng bộ phân lớp dữ liệu h trong vịng lặp chỉ sử dụng dựa trên bộ dữ liệu chưa được gán nhãn, mà khơng sử dụng đến dữ liệu đã gán nhãn ban đầu. Trong khi đĩ dữ liệu đã được gán nhãn lại chứa các hơng tin cĩ ích và chính xác hơn cho việc phân lớp. Vì vậy, ta đề xuất thêm thuật tốn tiếp theo là Co-Class để giải quyết được vấn đề này.