Thực hiện phânloại văn bản với SVM

Support Vector Machines (SVM) là một vùng nghiên cứu vô cùng thiết thực trong phân loại văn bản. Các kỹ thuật SVM tương tự với kNN trong đó chúng xem các tài liệu huấn luyện như các vector trong không gian đặc trưng, và chúng yêu cầu một hàm nhân (được gọi là kernel function) đóng vai trò tương tự như hàm m trong giải thuật k láng giềng gần nhất. Tuy nhiên thay vì xem xét các tài liệu tương tự với tài liệu được phân loại, các giải thuật SVM học hướng quyết định trong quá trình huấn luyện và chia các không gian vector vào trong các vùng chỉ ra các thành viên phân loại. Sau đó sự phân loại đơn giản là quyết định nào cho từng tài liệu thuộc vào.

Một ưu điểm chính của SVM là chúng có thể giải quyết tốt với các không gian đặc trưng lớn, cả về tính chính xác của các thuật ngữ trong kết quả phân loại và hiệu quả huấn luyện và các giải thuật phân loại. Điều này có nghĩa là một số ít hoặc không có sự lựa chọn đặc trưng nào cần thực hiện trên dữ liệu huấn luyện, xoá bỏ một sự tiêu tốn thời gian có thể của quy trình phân loại. Tuy nhiên, một nhược điểm của nhiều giải thuật SVM là chúng cân bằng kém với |Tr|,trong một vài trường hợp yêu cầu càng nhều càng tốt O(|Tr|3)

hoặc O(|Tr|4). Việc này có thể tạo ra sự cấm sử dụng với các số tài liệu lớn trừ khi giải thuật chuẩn bị thay đổi.

SVM là một trong các bộ phân loại văn bản chính xác nhất hiện nay. Với giả thiết là tập dữ liệu huấn luyện và kiểm tra được minh hoạ từ cùng một sự phân bố, sự hiểu biết chính đằng sau SVM là một siêu phẳng gần với nhiều điểm dữ liệu huấn luyện có một cơ hội lớn nhất của việc phân loại các trường hợp kiểm tra so với một siêu phẳng mà chuyển qua một không gian rõ ràng của bất kỳ trường hợp huấn luyện nào. Chúng ta chỉ xem xét các SVM tuyến tính đơn giản ởđây. Một SVM tuyến tính là một siêu phẳng mà phân tách các dữ liệu dương và với tập dữ liệu âm với lề tối đa trong không gian đặc trưng. Phân tách tối ưu là trực giao với đường ngắn nhất kết nối phần lồi của 2 lớp, và phân cách nó một nửa. Giả sử có tồn tài một siêu phẳng mà phân tách n tài liệu trong tập huấn luyện bởi một siêu phẳng mà vuông góc với một vài α. SVM tìm một giá trị của α mà cực đại khoảng cách của bất kỳ điểm huấn luyện nào tới siêu phẳng. Có thểđược công thức hoá như sau:

tối thiểu ⎟ ⎠ ⎞ ⎜ ⎝ ⎛= ⋅ 2 2 1 2 1α α α đối với ci(αdi + b) ≥ 1 ∀i = 1,..,n

với [d1, . . . , dn] là các các vector tài liệu huấn luyện và c1, . . . , cn là các lớp tương ứng của chúng. Tuy nhiên, các vấn đề tối ưu là khó điều khiển về số lượng, do đó các bộ nhân Lagrange được sử dụng để chuyển vấn đề vào trong một vấn đề tối ưu hoá toàn phương (quadratic). Khoảng cách của bất kỳ điểm huấn luyện tới siêu phẳng tối ưu được gọi là lề (margin) sẽ ít nhất là 1/||α||. Thực tế, việc huấn luyện các trường hợp chính xác tại khoảng cách 1/||α|| được gọi là các vector hỗ trợ (support vector) khi chúng là các điểm mà tác động tới siêu phẳng tối ưu. Nếu dữ liệu huấn luyện không thể phân tách tuyến

Máy học vector hỗ trợ SVM

Trường hợp phân tách không tuyến tính