Phân tích số liệu bằng phần mềm weka

Một phần của tài liệu khai phá dữ liệu và ứng dụng (Trang 40 - 43)

L ỜI CAM Đ OAN

2.4.2. Phân tích số liệu bằng phần mềm weka

Weka là phần mềm khai thác dữ liệu viết bằng ngôn ngữ Java. Weka tập hợp các thuật toán máy học cho các tác vụ khai thác dữ liệu. Weka gồm các công cụ thực hiện: tiền xử lý dữ liệu(data pre-processing), phân lớp (classification), hồi quy (regression), gom cụm (clustering), luật kết hợp (association rules). Chúng ta có thể tìm hiểu và sử dụng nó qua website

http://www.cs.waikato.ac.nz/~ml/weka/index.html.

Xử lý file dữ liệu để phân lớp trong Weka:

File dữ liệu dùng trong Weka là file .arff(file này do phần mềm Weka tạo ra) hoặc file .csv (file dạng dữ liệu Excel).

Phân lớp trong Weka

Chúng ta có thể dùng dữ liệu file.csv của cơ sở dữ liệu nhân sự vừa kiết xuất (export) bằng chức năng của hệ quản trị Microsoft SQL Server hoặc sử dụng 2 file bank-data.csv và bank.arff do phần mềm cung cấp để kiểm tra chức năng phân lớp của Weka.

- Để thực hiện phân lớp, đầu tiên chúng ta phải chọn file cần phân lớp (Hình 2.4 là hình ảnh sau khi tải file dữ liệu).

- Sau khi mở file, chọn tab Classify. Nhấn nút Choose để chọn phân lớp theo luật nào: Bayes, C4.5,…(tương đương C4.5 , trong Weka là J48)

Hình 2.5 Liệt kê các phương pháp phân lớp của công cụ

- Kết quả sẽ hiện ra trên màn hình bên phải:

Hình 2.6 Liệt kê kết quả phân lớp

- Cơ sở dữ liệu nhân sự dùng Hệ quản trị Microsoft SQL. Vì thế, để có dữ liệu cho phân tích ta phải kiết xuất dữ liệu theo định dạng;

- Giao diện kết quả khó khai thác( đây là ứng dụng cài đặt cho từng máy trạm không phát triển được ứng dụng phân tích trực tuyến);

- Dữ liệu đầu vào cho phân tích dạng bảng theo cấu trúc file csv hoặc file text. Không có hỗ trợ kết nối trực tiếp vào cơ sở dữ liệu;

- Kết quả đầu ra không trực quan.

Một phần của tài liệu khai phá dữ liệu và ứng dụng (Trang 40 - 43)

Tải bản đầy đủ (PDF)

(88 trang)