Phần mềm WEKA

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ (Trang 45 - 48)

WEKA (Waikato Environment for Knowledge Analysis) là phần mềm khai thác dữ liệu thuộc dự án của trường đại học Waikato, New Zealand lần đầu tiên năm 1993. Mục tiêu để xây dựng cơng cụ hiện đại nhằm phát triển các kĩ thuật máy học và áp dụng chúng vào các bài tốn khai thác dữ liệu trong thực tế, sử dụng trong các bài giảng về các thuật giải Machine Learning ở nhiều trường đại học lớn trên thế giới.

WEKA được viết bằng ngơn ngữ Java JDK, cấu trúc gồm hơn 600 lớp tổ chức thành 10 packages.

Với các chức năng chính:

- Khảo sát dữ liệu: Tiền xử lí dữ liệu, phân lớp, gom nhĩm dữ liệu, khai thác luật kết hợp.

- Thực nghiệm mơ hình: cung cấp phương tiện để kiểm chứng đánh giá các mơ hình học.

- Biểu diễn trực quan dữ liệu bằng nhiều dạng đồ thị…

Trong luận văn, chủ yếu sử dụng phần mềm này để khảo sát dữ liệu nhằm so sánh với chương trình đã xây dựng.

Giao diện của phần mềm WEKA:

Hinh 3.3.Giao diện phần mềm Weka

Từ giao diện chính của WEKA thực hiện các bước:

- Bước 1. Chọn nút tác vụ Explorer, giao diện Weka Explorer xuất hiện

Hình 3.4 Giao diện Weka Explorer

- Bước 2. Tại thẻ Preprocess chọn nút Open file… để nạp tệp cơ sở dữ liệu. Thơng thường cơ sở dữ liệu lưu dạng *.arff hoặc *.csv

Hình 3.5 Giao diện Weka Explorer sau khi chọn CSDL Spambase

WEKA sẽ thống kê và đưa ra các thuộc tính cĩ trong cơ sở dữ liệu hiển thị trên giao diện, tại hộp Attributes nhấn nút All để chọn tất cả các thuộc tính.

Hình 3.6 Phân loại dữ liệu

- Bước 4. Chọn hàm, luật,… phân loại tại mục Classify nhấn nút Choose. Thiết lập một số tùy chọn tại mục Test options, ở đây ta chọn sử dụng phương pháp Cross-validation.

- Bước 5. Nhấn nút Start để thực hiện, và theo dõi kết quả tại vùng Classifier output.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ (Trang 45 - 48)

Tải bản đầy đủ (PDF)

(58 trang)