Đánh giá hỗ trợ của R về mặt phân tích và dự đoán số liệu:
Qua màn hình và một số tư liệu tham khảo cho thấy R là công cụ phân tích thông kê mạnh. Nhưng cũng có một số đánh giá sau:
- Thích hợp mô hình phân tích thống kê và vẽ biểu đồ;
- Giao diện kết quả khó khai thác( đây là ứng dụng cài đặt cho từng máy trạm không phát triển được ứng dụng phân tích trực tuyến);
- Dữ liệu đầu vào cho phân tích dạng bảng theo cấu trúc file csv hoặc file text. Công cụ không có hỗ trợ kết nối trực tiếp vào cơ sở dữ liệu;
- Kết quả đầu ra không trực quan;
Chính vì những lý do này luận văn không tiếp tục nghiên cứu sử dụng R cho bài toán phân tích số liệu nhân sự.
2.4.2. Phân tích số liệu bằng phần mềm weka
Weka là phần mềm khai thác dữ liệu viết bằng ngôn ngữ Java. Weka tập hợp các thuật toán máy học cho các tác vụ khai thác dữ liệu. Weka gồm các công cụ thực hiện: tiền xử lý dữ liệu(data pre-processing), phân lớp (classification), hồi quy (regression), gom cụm (clustering), luật kết hợp (association rules). Chúng ta có thể tìm hiểu và sử dụng nó qua website http://www.cs.waikato.ac.nz/~ml/weka/index.html.
Xử lý file dữ liệu để phân lớp trong Weka:
File dữ liệu dùng trong Weka là file .arff(file này do phần mềm Weka tạo ra) hoặc file .csv (file dạng dữ liệu Excel).
Phân lớp trong Weka
Chúng ta có thể dùng dữ liệu file.csv của cơ sở dữ liệu nhân sự vừa kiết xuất (export) bằng chức năng của hệ quản trị Microsoft SQL Server hoặc sử dụng 2 file bank-data.csv và bank.arff do phần mềm cung cấp để kiểm tra chức năng phân lớp của Weka.
- Để thực hiện phân lớp, đầu tiên chúng ta phải chọn file cần phân lớp (Hình 2.4 là hình ảnh sau khi tải file dữ liệu).
- Sau khi mở file, chọn tab Classify. Nhấn nút Choose để chọn phân lớp theo luật nào: Bayes, C4.5,…(tương đương C4.5 , trong Weka là J48)