Xây dựng chương trình biểu diễn và tiền xừ lý dữ liệu

Một phần của tài liệu Tìm hiểu phương pháp học tích cực và ứng dụng cho bài toán lọc thư rác (Trang 50)

a. Môi trường cài đặt:

Chương trình được cài đặt trên các môi trường ứng dụng sau:

- Môi trường cài đặt ứng dụng: Visual Studio .NET - Ngôn ngữ sử dụng: Visual C#

b. Chức năng của chương trình:

+ Tiền xử lý dữ liệu: tách từ trong các thư thành các từ đơn, loại bỏ đi các ký tự đặc biệt, loại bỏ các từ dừng (stop-word). Đưa các từ vào trong từ điển, đánh chỉ số cho các từ.

+ Xử lý dữ liệu tạo file dữ liệu đầu vào cho các chương trình thực nghiệm.

- Giao diện chính của chương trình:

Hình 4.3. Giao diện chính của chương trình

Lựa chọn thư mục chứa dữ liệu để lấy dữ liệu đưa vào chương trình xử lý:

Hình 4.4 Giao diện lựa chọn thư mục chứa dữ liệu

Nhấn nút “Làm sạch dữ liệu” để loại bỏ các ký tự đặc biệt trong thư: ký tự xuống dòng, loại bỏ các từ dừng (stop word). Quá trình làm sạch dữ liệu sau khi hoàn thành sẽ thông báo như trong hình 4.5

Hình 4.5 Thông báo quá trình làm sạch dữ liệu đã thành công

Bấm nút “Xứ lý” để biểu diễn dữ liệu về dạng vector thể hiện trong các file có đuôi chấm là snow và libsvm. Trên màn hình chương trình cũng thể hiện dữ liệu huấn luyện và kiểm tra (hình 4.6). Trong file huấn luyện gồm có 323 thư thường và 167 thư rác. Trong file kiểm tra có 141 thư thường và 69 thư rác.

Kết quả của chương trình là tạo ra các file có đuôi .snow và .libsvm chính là dữ liệu thử nghiệm tương ứng cho các chương trình Snow và AcitveExperimenter. Dữ liệu ra được lưu trong thư mục đã chọn ở đầu chương trình.

Hình 4.6 Giao diện thông báo kết quả xử lý dữ liệu

Một phần của tài liệu Tìm hiểu phương pháp học tích cực và ứng dụng cho bài toán lọc thư rác (Trang 50)