Nhận xét về phƣơng pháp SVMs

Một phần của tài liệu phân loại văn bản tiếng việt sử dụng phương pháp máy hỗ trợ vector (support vector machine – svms) (Trang 43 - 44)

Các phương pháp như cây quyết định, K- láng giềng gần nhất có ưu điểm là dễ hiểu, dễ xây dựng về mặt thuật toán. Nhưng việc xây dựng sẽ phức tạp khi vector dùng để biểu diễn văn bản có số chiều quá lớn, riêng với phương pháp K-láng giềng gần nhất chúng ta không có một giải pháp tuyệt đối trong việc lựa chọn phương pháp xác định độ tương tự giữa văn bản và chủ đề. Để hiệu quả của các phương pháp này cao thì tập dữ liệu huấn luyện càng đòi hỏi phải lớn.

Với phương pháp SVMs, tuy có một số nhược điểm như:  Phức tạp về mặt xây dựng thuật toán

 Quá trình huấn luyện yêu cầu nhiều không gian nhớ, và tốn nhiều thời gian huấn luyện.

Nhưng ngược lại, nhiều kết quả thực nghiệm với các văn bản tiếng Anh đã chứng tỏ phương pháp này có nhiều ưu điểm như:

 Có hiệu quả phân loại cao không phụ thuộc vào số chiều của vector biểu diễn văn bản, phù hợp với việc áp dụng phương pháp trích chọn tập từ khoá đặc trưng biểu diễn văn bản, nhờ đó làm tăng hiệu năng thực thi, giảm không gian nhớ và thời gian thực hiện huấn luyện.

 Có thể cho kết quả phân loại tốt mà không cần quá nhiều văn bản để huấn luyện.

 So với các phương pháp phân loại truyền thống như cây quyết định, K-NN, …, phương pháp SVMs là phương pháp phân loại đạt hiệu quả cao hơn hẳn.  Có khả năng xử lý đối với tập dữ liệu có kích thước lớn (thể hiện qua bài

toán gia tăng SVMs).

Với những ưu điểm đã được chứng thực qua việc phân loại các văn bản tiếng Anh, phương pháp SVMs được lựa chọn để phân loại văn bản trong khóa luận.

2.5 Kết chƣơng

Trong chƣơng 2, em đã trình bày toàn bộ cơ sở lý thuyết của phương pháp SVMs, đưa ra các bài toán liên quan tới phương pháp SVMs và đặc biệt đưa ra giải pháp cài đặt theo giải thuật 2v-SVMs.

Chương 3 sẽ trình bày chi tiết về việc phân tích, cài đặt các module cần thiết có trong chương trình demo phương pháp SVMs trong phân loại văn bản tiếng Việt.

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 32/67

CHƢƠNG 3. THIẾT KẾ VÀ XÂY DỰNG CHƢƠNG TRÌNH

Các chương 1, 2 của báo cáo đã trình bày những cơ sở lý thuyết chung về lĩnh vực Khai phá dữ liệu văn bản, các phương pháp phân loại văn bản và đặc biệt đi sâu trình bày phương pháp Máy vector hỗ trợ SVMs dùng trong phân loại văn bản. Để minh hoạ cho những phần lý thuyết đã trình bày nêu trên, đồng thời với mục đích nhằm nâng cao hiệu quả của chương trình phân loại văn bản tiếng Việt, phần này sẽ đưa ra những giải pháp thiết kế và cài đặt cho chương trình phân loại văn bản sử dụng SVMs, bao gồm:

 Tiền xử lý văn bản.

 Cài đặt cho module huấn luyện SVMs.  Cài đặt module kiểm tra SVMs.

 Cài đặt module tóm tắt văn bản đơn.

Một phần của tài liệu phân loại văn bản tiếng việt sử dụng phương pháp máy hỗ trợ vector (support vector machine – svms) (Trang 43 - 44)