Xây dựng chương trình biểu diễn và tiền xừ lý dữ liệu

Một phần của tài liệu LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC ppt (Trang 50 - 53)

CHƯƠNG I : GIỚI THIỆU

4.3 Thử nghiệm và kết quả

4.3.3. Xây dựng chương trình biểu diễn và tiền xừ lý dữ liệu

a. Mơi trường cài đặt:

Chương trình được cài đặt trên các mơi trường ứng dụng sau:

- Mơi trường cài đặt ứng dụng: Visual Studio .NET - Ngơn ngữ sử dụng: Visual C#

b. Chức năng của chương trình:

+ Tiền xử lý dữ liệu: tách từ trong các thư thành các từ đơn, loại bỏ đi các ký tự đặc biệt, loại bỏ các từ dừng (stop-word). Đưa các từ vào trong từ điển, đánh chỉ số cho các từ.

+ Xử lý dữ liệu tạo file dữ liệu đầu vào cho các chương trình thực nghiệm.

- Giao diện chính của chương trình:

Hình 4.3. Giao diện chính của chương trình

Lựa chọn thư mục chứa dữ liệu để lấy dữ liệu đưa vào chương trình xử lý:

Hình 4.4 Giao diện lựa chọn thư mục chứa dữ liệu

Nhấn nút “Làm sạch dữ liệu” để loại bỏ các ký tự đặc biệt trong thư: ký tự xuống dịng, loại bỏ các từ dừng (stop word). Quá trình làm sạch dữ liệu sau khi hồn thành sẽ thơng báo như trong hình 4.5

Hình 4.5 Thơng báo quá trình làm sạch dữ liệu đã thành cơng

Bấm nút “Xứ lý” để biểu diễn dữ liệu về dạng vector thể hiện trong các file cĩ đuơi chấm là snow và libsvm. Trên màn hình chương trình cũng thể hiện dữ liệu huấn luyện và kiểm tra (hình 4.6). Trong file huấn luyện gồm cĩ 323 thư thường và 167 thư rác. Trong file kiểm tra cĩ 141 thư thường và 69 thư rác.

Kết quả của chương trình là tạo ra các file cĩ đuơi .snow và .libsvm chính là dữ liệu thử nghiệm tương ứng cho các chương trình Snow và AcitveExperimenter. Dữ liệu ra được lưu trong thư mục đã chọn ở đầu chương trình.

Hình 4.6 Giao diện thơng báo kết quả xử lý dữ liệu

Một phần của tài liệu LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC ppt (Trang 50 - 53)

Tải bản đầy đủ (PDF)

(65 trang)