7. Nội dung luận văn
2.3. Bộ phân loại Support Vector Machines (SVM)
Thuật tốn vector hỗ trợ (Support Vector Machines - SVM) được Corters và Vapnik giới thiệu vào năm 1995. SVM rất hiệu quả để giải quyết các bài tốn với dữ liệu cĩ số chiều lớn như các vector biểu diễn văn bản. Thuật tốn SVM ban đầu chỉ được thiết kế để giải quyết bài tốn phân lớp nhị phân tức là số lớp hạn chế là hai lớp. Hiện nay, SVM được đánh giá là bộ phân lớp chính xác nhất cho bài tốn phân lớp văn bản, bởi vì đĩ là bộ phân lớp tốc độ rất nhanh và hiệu quả đối với bài tốn phân lớp văn bản.
Phương pháp SVM được coi là phương pháp hiệu quả để giải quyết bài tốn phân lớp với dữ liệu cĩ số chiều lớn như các vector biểu diễn văn bản. Về mặt lý thuyết, thuật tốn phân lớp nhị phân này cũng cĩ thể sử dụng cho bài tốn phân lớp đa lớp bằng cách chuyển bài tốn đa lớp thành bài tốn nhị phân. Tuy nhiên, đối với bài tốn phân lớp văn bản sử dụng phương pháp SVM thì việc lựa chọn thuộc tính cho từng phân lớp lại là vấn đề cực kỳ quan trọng, nĩ quyết định đến hiệu quả của phân lớp.
Trong những năm gần đây, SVM được biết đến như một hướng tiếp cận phân lớp hiệu quả và đang được áp dụng rộng rãi trong nhiều ứng dụng thực tế. Ưu điểm của SVM là khả năng phân lớp với độ chính xác cao, điều này được đảm bảo bởi các tính chất của siêu phẳng tối ưu và cách sử dụng hàm nhân (kernel) để tối thiểu hĩa rủi ro ước lượng. Nhiều thử nghiệm thực tế cho thấy, phương pháp SVM cĩ khả năng phân loại khá tốt đối với bài tốn phân loại văn bản cũng như trong nhiều ứng dụng khác (như nhận dạng chữ viết tay, phát hiện mặt người trong các ảnh, ước lượng hồi quy,…).
Mục đích của thuật tốn SVM là tìm ra hàm phân lớp hiệu quả nhất để phân biệt các thành phần của các lớp trong việc huấn luyện dữ liệu. Ví dụ trong tập dữ liệu phân chia tuyến tính, hàm phân loại tuyến tính tương ứng với một siêu phẳng f(x) phân chia 2 tập hợp. Khi hàm này được xác định thì bất kỳ một thể hiện xn mới sẽ được phân lớp đơn giản bằng việc xét dấu của hàm f(xn) nếu xn thuộc về tập các giá trị dương thì f(xn) > 0 ngược lại thì thuộc tập các giá trị âm.
Hình 2.1. Mơ hình SVM
Một thuật tốn huấn luyện được đánh giá là tốt nếu sau quá trình huấn luyện, hiệu suất tổng quát hĩa của bộ phân loại nhận được cao. Tuy nhiên, hiệu suất lại phụ thuộc vào hai tham số là sai số huấn luyện và năng lực của máy học. Trong đĩ sai số huấn luyện là tỷ lệ lỗi phân loại trên tập dữ liệu huấn luyện, cịn năng lực của máy học được xác định bằng kích thước VC (Vapnik – Chervonenkis).
Nhìn chung thuật tốn SVM là một thuật tốn phân loại tuyến tính thích hợp trong phân loại văn bản nhiều chủ đề. SVM cĩ ưu điểm là cĩ thể giải quyết tốt với các khơng gian đặc trưng lớn, cả về tính chính xác của các thuật ngữ trong kết quả phân loại và hiệu quả huấn luyện và các giải thuật phân loại.
Ta áp dụng phương pháp SVM vào chương trình phân loại với cách tiếp cân SVM là tìm siêu phẳng phân cách sao cho khoảng cách lề giữa hai lớp mẫu huấn luyện đạt cực đại.