IV. CHƯƠNG TRÌNH PHÂN LỚP VĂN BẢN VỚI SVM VÀ KẾT QUẢ THỰC NGHIỆM
4.1. Chương trình phân lớp văn bản với SVM
Để mô tả những gì tôi tìm hiểu được, tôi đã tạo một ứng dụng cho hai vấn đề chính được đề cập trong báo cáo là: tiền xử lý các văn bản và phân loại các văn bản với SVM . Chương trình được viết bằng ngôn ngữ lập trình C#(Visual Studio 2008) với giao diện rõ ràng, thân thiện, biểu diễn đầy đủ các tính năng cần thiết nhằm mô phỏng từng bước cụ thể trong bài toán phân loại tiếng Anh lẫn tiếng Việt từ các bước cơ bản như: lấy tập văn bản huấn luyện hay văn bản kiểm tra và biểu diễn chúng dưới dạng chuẩn của chương trình đến việc tạo ra các bộ phân lớp tự động và dùng chúng để phân loại các văn bản trong tập kiểm tra hay một tập bất kì. Tất cả các kết quả được đề cập đến trong báo cáo là kết quả thực thi chương trình trên máy tính có cấu hình : Dual-Core, 2.49 GHz, Gam 1G, sử dụng hệ điều hành Window SP, Service Part 2.
Giao diện thể hiện 2 thành phần chủ yếu là “Text Processing”(Tiền xử lý) và ”Classification” (Phân loại). Chúng ta chọn chức năng cần thực hiện bằng cách chọn tab tương ứng vàđến từng thao tác thiết.
Trước khi sử dụng chương trình này chúng ta nên xem phần “Help” để có cái nhìn khái quát và hiểu về các chức năng của chương trình và có thể sử dụng chương trình nhanh chóng, tiết kiệm thời gian hơn và tránh xảy ra lỗi.
Lưu ý: Chúng ta nên tìm hiểu rõ về bước tiền xử lý này nhằm giúp cho ta hiểu được công đoạn loại bỏ thành phần thừa và giữ lại các thành phần trọng tâm. Đây là giai đoạn cơ bản trong việc phân lớp nhưng hết sức quan trọng. Có như thế thì các đặc trưng được chọn chính xác và đầy đủ hơn.