2. Kỹ thuật trích chọn thông tin
2.2.1 Phân dòng dựa trên Support Vector Machine(SVM )
Phân loại dòng: Quá trình sắp xếp dòng vào một trong nhiều lớp xác định trước
dựa trên nội dung của chúng. Sự khác nhau trong kết quả phân loại, phụ thuộc vào việc lựa chọn tập đặc trưng miêu tả đối tượng cần phân loại, kết hợp với thông tin đối tượng phân loại trước liền kề.
Thời gian gần đây kĩ thuật học máy được sử dụng nhiều để phân loại. Đây là
phương pháp sử dụng tập huấn luyện thông qua bộ phân loại và tập đặc trưng miêu tả đối tượng để tự động phân loại đối tượng chưa biết.
Cho Tập các nhãn(phân loại, lớp) C={c1,…cn} và tập đối tượng cần phân loại D={D1, D2, …}. Một bộ phân loại là hàm ánh xạ K từ D tới tập tất cả các tập con của C.
Hệ thống sử dụng một tập huấn luyện – tập đối tượng được gán nhãn trước đó bởi một chuyên gia. Đối tượng cần gán nhãn được miêu tả theo các đặc trưng trích chọn và bộ phân loại dựa trên tập huấn luyện để có sự phân loại tương tự.
Một trong những phương pháp học máy sử dụng cho phân loại trích chọn thông tin được sử dụng nhiều là Support Vector Machine(SVM): máy vector hỗ trợ. Trong đó đối tượng cần phân loại được xem là một vector trong không gian. Vector có số chiều là tập các đặc trưng trích chọn. SVM dựa trên Vector hỗ trợ - sinh ra bởi tập dữ liệu huấn luyện để phân loại đối tượng .
Ta sẽ sử dụng phần mềm SVM_light để thực thi SVM cùng với biểu diễn đối tượng cần phân loại (ở đây là dòng) theo các đặc trưng trích chọn để phân loại, trích rút thông tin đặc trưng của tài liệu khoa học.