{i} là tập hợp các văn bản thuộc chủ đề C

Một phần của tài liệu PHƯƠNG PHÁP PHÂN LỚP SUPPORT VECTOR MACHINE (SVM) (Trang 30)

Chủ đề của vector x là Cx thỏa mãn cos(x, Cx)= arg max (cos(x,Ci)).

2.7. Phương pháp Support Vector Machine (SVM)

Ý tưởng của phương pháp là cho trước một tập huấn luyện được biểu diễn trong không gian vector, trong đó mỗi một văn bản được xem như một điểm trong không gian này.Phương pháp này tìm ra một siêu mặt phẳng h quyết định tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt tương ứng, tạm gọi là lớp + (cộng) và lớp – (trừ). Chất lượng của siêu mặt phẳng này được quyết định bởi một khoảng cách (được gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này. Khoảng cách biên càng lớn thì càng có sự phân chia tốt các điểm ra thành hai lớp, nghĩa là sẽ đạt được kết quả phân loại tốt. Mục tiêu của thuật toán SVM là tìm được khoảng cách biên lớn nhất để tạo kết quả phân loại tốt.

Có thể nói SVM thực chất là một bài toán tối ưu, mục tiêu của thuật toán là tìm được một không gian H và siêu mặt phẳng quyết định h trên H sao cho sai số khi phân loại là thấp nhất, nghĩa là kết quả phân loại sẽ cho kết quả tốt nhất.

Phương pháp phân loại SVM là một phương pháp dựa trên nền toán học vững chắc và rõ ràng. Phương pháp SVM là nội dung chính tôi đề cập trong báo cáo này. Sự so sánh ở mục trên và kết quả thực nghiệm tôi thực hiện trong chương 2 là lý do mà tôi chọn và nghiên cứu phương pháp SVM trong phân loại văn bản. Chi tiết của phương pháp này và kết quả thực nghiệm được tôi trình bày trong phần 3.

Một phần của tài liệu PHƯƠNG PHÁP PHÂN LỚP SUPPORT VECTOR MACHINE (SVM) (Trang 30)