Hình 4 .14 Cây mô tả công việc hiện tại
2.4. Các phần mềm công cụ khai phá dữ liệu: 38
2.4.1. Phân tích số liệu bằng R: 38
Vậy R là gì? Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân tích thống kê và vẽ biểu đồ. Thật ra, về bản chất, R là ngôn ngữ máy tính đa năng, có thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học giải trí (recreational mathematics), tính toán ma trận (matrix),
đến các phân tích thống kê phức tạp. Vì là một ngôn ngữ, cho nên người ta có thể sử dụng R để phát triển thành các phần mềm chuyên môn cho một vấn
đề tính toán cá biệt.
File dữ liệu vào cho R:
File dữ liệu dùng trong R là file .csv (file dạng dữ liệu Excel).
Để lấy dữ liệu từ bảng dữ liệu nhân sự ta phải vào dùng chức năng “Export” dữ liệu của Hệ quản trị cơ sở dữ liệu SQL Server
Hình 2.2 Hình mô tả chức năng Export dữ liệu từ dữ liệu nhân sự
Sau khi export ta được file dữ liệu lưu với tên HC_EMP.CSV. Ta dùng file này để thực hiện phân lớp bằng phần mềm R.
Nhập dữ liệu vào R ta dùng lệnh Read.CSV: > setwd(“c:/works/insulin”)
> gh <- read.csv ("HC_EMP.CSV", header=TRUE)
Lệnh thứ hai read.csv yêu cầu R đọc số liệu từ “HC_EMP.csv”, dùng dòng thứ nhất là tên cột, và lưu các số liệu này trong một object có tên là gh. Bây giờ chúng ta có thể lưu gh dưới dạng R để xử lí sau này bằng lệnh sau
đây:
Lấy Packages để thực hiện phân lớp chọn Random forest:
Hình 2.3 Minh họa chức năng chọn phân lớp dữ liệu trong R
Đánh giá hỗ trợ của R về mặt phân tích và dự đoán số liệu:
Qua màn hình và một số tư liệu tham khảo cho thấy R là công cụ phân tích thông kê mạnh. Nhưng cũng có một số đánh giá sau:
- Thích hợp mô hình phân tích thống kê và vẽ biểu đồ;
- Giao diện kết quả khó khai thác( đây là ứng dụng cài đặt cho từng máy trạm không phát triển được ứng dụng phân tích trực tuyến);
- Dữ liệu đầu vào cho phân tích dạng bảng theo cấu trúc file csv hoặc file text. Công cụ không có hỗ trợ kết nối trực tiếp vào cơ sở dữ liệu;
- Kết quả đầu ra không trực quan;
Chính vì những lý do này luận văn không tiếp tục nghiên cứu sử dụng R cho bài toán phân tích số liệu nhân sự.