Ưu điểm khi sử dụng SVM phânloại văn bản

Để tìm ra phương pháp nào được mong muốn để học phân loại văn bản, chúng ta nên tìm ra nhiều hơn các thuộc tính của văn bản.

Không gian đầu vào nhiều chiều: khi học, bộ phân loại văn bản phải giải quyết với nhiều đặc trưng (hơn 10000 đặc trưng). Khi SVM sử dụng việc tránh vượt ngưỡng mà không cần phụ thuộc vào số các đặc trưng, chúng phải có thểđiều khiển các không gian đặc trưng lớn.

Ít đặc trưng không liên quan: một cách để tránh các không gian nguồn và nhiều chiều là thừa nhận hầu hết các đặc trưng là không liên quan. Trích chọn đặc trưng thực hiện điều đó. Tất cả các đặc trưng được phân loại theo thông tin lẫn nhau cuả chúng. Các kết quả thực nghiệm chỉ ra rằng thậm chí các đặc trưng được xếp hạng thấp nhất vẫn chứa các thông tin đáng xem xét và liên quan. Một bộ phân loại sử dụng các đặc trưng “tồi nhất” có một sự thực hiện tốt hơn ngẫu nhiên. Nó dường như không giống với tất cả các đặc trưng hoàn toàn không cần thiết, việc này dẫn tới sự phỏng đoán rằng một bộ phân loại tốt nên kết hợp nhiều đặc trưng (học một khái niệm “đông đúc”) và sự lựa chọn đặc trưng đó giống với sự thực hiện không tốt vì mất mát thông tin.

Các vector tài liệu là thưa: mỗi một tài liệu di, vector tài liệu tương ứng

d chỉ chứa một ít mục khác 0. Kivinen và các đồng nghiệp đưa ra bằng chứng lý thuyết và thực nghiệm cho mô hình giới hạn lỗi mà các giải thuật thêm vào, mà có một dẫn xuất tương tự xu hướng giống SVMs là rất phù hợp cho các vấn đề với các khái niệm đông đưc và không gian thưa.

Hầu hết các vấn đề phân loại văn bản là phân tách tuyến tính: tất cả các phân loại Ohsumed là phân tách tuyến tính và nhiều bài toán của Reuter. Ý tưởng của SVM là tìm các phân tách tuyến tính.

Các lý do trên đã chứng minh rằng SVMs thực hiện tốt cho phân loại văn bản.

PHẦN II - THỬ NGHIỆM PHÂN LOẠI VĂN BẢN TRONG ORACLE BẰNG

PHƯƠNG PHÁP SVM

Trong phần này, tác giả tập trung vào tìm hiểu cách thức khai phá văn bản,

đặc biệt với vấn đề phân loại văn bản với dữ liệu nằm trong các CSDL Oracle. Phần này gồm 2 chương:

- Chương 4: mô tả về các bước và quá trình xử lý của Oracle Text với bài toán phân loại văn bản bằng phương pháp SVM.

- Chương 5: Thực hiện thử nghiệm và các kết quả thử nghiệm phân loại văn bản với Oracle Text

CHƯƠNG 4. PHÂN LOẠI VĂN BẢN VỚI ORACLE TEXT

Các CSDL thương mại hiện đại càng phát triển đã làm tăng khả năng phân tích. Kỹ thuật khai phá văn bản trở nên chủ yếu để phân tích khối lượng lớn dữ liệu. Các kỹ thuật khai phá tài liệu hiện tại đã đưa ra các kết quả

chính xác cao và tổng quá hoá cho tập dữ liệu. Tuy nhiên, các kết quả thu

được có chất lượng cao yêu cầu mức độ chuyên nghiệp hơn của người dùng. SVM là một giải thuật khai phá văn bản mạnh có thể giải quyết các vấn đề mà không cần các phương pháp thống kê truyền thống. Tuy nhiên, vẫn còn một số giới hạn vềđộ phức tạp phương pháp luận, khả năng linh hoạt, và cài đặt sản phẩn SVM có chất lượng ít. Trong phần này tác giả mô tả cách thực hiện SVM đã được hợp nhất vào CSDL Oracle và do đó có thể dễ dàng thúc đẩy nhiều ứng dụng phát triển.

Ưu điểm khi sử dụng SVM phânloại văn bản

Máy học vector hỗ trợ SVM

Trường hợp phân tách không tuyến tính