6. Cấu trúc của luận vă n
2.2.4. Bộ phân loại vector hỗ trợ (Support Vector Machine – SVM)
Phương pháp phân loại văn bản bằng vector hỗ trợ (SVM) là phương pháp phân loại dựa trên lý thuyết học thống kê được Vladimir Vapnik đưa ra vào năm 1995 để
giải quyết vấn đề nhận dạng mẫu hai lớp. Nếu như với các phương pháp kNN, Naive Bayes hay mạng nơron, đều cần phải xác định và ước lượng các tham số và ngưỡng tối
ưu. Thì trong mơ hình của máy học SVM (các tham số w, b tối ưu) được học một cách tự động trong quá trình huấn luyện. Ngồi ra, SVM cĩ khả năng đảm bảo hiệu suất tổng quát hĩa tốt trong khơng gian dữ liệu cĩ số chiều cao (số đặc trưng rất lớn) và lượng tài liệu mẫu là cĩ hạn. Trong SVM hầu hết các đặc trưng được xem như cĩ liên quan và hữu dụng trong phân loại văn bản ngay cả khi đĩ là những đặc trưng với ít khả năng rõ ràng nhất cũng được sử dụng để thử hệ thống phân loại. Hiệu quả của SVM cũng đã được các tác giả Nguyễn Linh Giang và Nguyễn Mạnh Hiển minh chứng trong "Phân loại văn bản tiếng Việt với bộ phân loại vectơ hỗ trợ SVM" [33],
một trong các ngơn ngữ được xem là khĩ trên phương diện từ vựng và câu, đồng thời lại khơng cĩ khái niệm stemming.
Ý tưởng của phương pháp: Cho trước một tập huấn luyện được biểu diễn trong khơng gian vector trong đĩ mỗi tài liệu là một điểm. Phương pháp này tìm ra một siêu mặt phẳng h quyết định tốt nhất cĩ thể chia các điểm trên khơng gian này thành hai lớp riêng biệt tương ứng: Lớp dương "+" (các điểm mầu đỏ), bao gồm các mẫu huấn luyện đúng chủđề và lớp âm "−" (các điểm màu xanh), bao gồm các mẫu huấn luyện khác chủđề. Chất lượng của siêu mặt phẳng này được quyết định bởi khoảng cách (gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này. Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác. Mục đích của thuật tốn SVM là tìm được khoảng cách biên lớn nhất (Hình 2.17).
Hình 2.17: Ý tưởng của phương pháp Support Vector Machine.
Những vector nằm gần mặt siêu phẳng quyết định nhất được gọi là các vector hỗ
trợ (các điểm màu xanh lá cây), đây là những thành phần quan trọng nhất của tập tài liệu huấn luyện, bởi nếu chỉ cĩ các vector hỗ trợ, ta vẫn cĩ thể xây dựng được mặt siêu phẳng lề tối ưu như với bộ huấn luyện đầy đủ.
Xét bài tốn phân loại đơn giản nhất, phân loại 2 phân lớp với tập dữ liệu mẫu
( ) ⎭⎬⎫ ⎩ ⎨ ⎧ = ∈ m i i i,y | i ..N,x R x 1 , với các mẫu huấn luyện xi là vector trọng số biểu diễn văn bản thứ i. Cĩ hai khả năng xảy ra khi tiến hành phân loại là: Khả tách tuyến tính (phân tách tuyến tính) và khơng khả tách tuyến tính.