V , tập_thuộc_tính), gắn kết quả vào nhánh
b) Tránh “quá vừa” dữ liệu
3.3. Các luật phân lớp đƣợc sinh ra từ việc sử dụng cây quyết định trên CSDL cán bộ
CSDL cán bộ
Lựa chọn phần mềm hỗ trợ khai phá dữ liệu:
Weka là phần mềm khai thác dữ liệu viết bằng ngôn ngữ Java. Weka tập hợp các thuật toán máy học cho các tác vụ khai thác dữ liệu. Weka gồm các công cụ thực hiện: tiền xử lý dữ liệu(data pre-processing), phân lớp (classification), hồi quy (regression), gom cụm (clustering), luật kết hợp (association rules). Chúng ta có thể tìm hiểu và sử dụng nó qua website
http://www.cs.waikato.ac.nz/~ml/weka/index.html.
Xử lý file dữ liệu để phân lớp trong Weka:
File dữ liệu dùng trong Weka là file .arff(file này do phần mềm Weka tạo ra) hoặc file .csv (file dạng dữ liệu Excel).
Phân lớp trong Weka
Chúng ta có thể dùng dữ liệu file.csv của cơ sở dữ liệu nhân sự vừa kiết xuất (export) bằng chức năng của hệ quản trị Microsoft SQL Server hoặc sử dụng 2 file bank-data.csv và bank.arff do phần mềm cung cấp để kiểm tra chức năng phân lớp của Weka.
Hình 3.7 Minh họa Open file trong weka
- Sau khi mở file, chọn tab Classify. Nhấn nút Choose để chọn phân lớp theo luật nào: Bayes, C4.5,…(tương đương C4.5 , trong Weka là J48)
Hình 3.9 Liệt kê các phương pháp phân lớp của công cụ
- Kết quả sẽ hiện ra trên màn hình bên phải:
Đánh giá hỗ trợ của weka đối với yêu cầu phân tích trên dữ liệu nhân sự:
- Cơ sở dữ liệu nhân sự dùng Hệ quản trị Microsoft SQL. Vì thế, để có dữ liệu cho phân tích ta phải kiết xuất dữ liệu theo đúng định dạng;
- Tập luật đầu ra phù hợp với yêu cầu của luận văn;
Một số ví dụ mô hình cây quyết định:
- Cây quyết định cho chức năng tuyển dụng:
Hình 3.11 Cây quyết định tuyển dụng nhân sự Từ cây quyết định một số luật được sinh ra:
- Nếu loại “tốt nghiệp = giỏi” thì “tuyển dụng = yes” - Nếu loại “tốt nghiệp = khá” thì “tuyển dụng = yes”
- Nếu loại “tốt nghiệp = trung bình” và “ thành phần = nông dân” thì “tuyển dụng = no”
- Nếu loại “tốt nghiệp = trung bình” và “ thành phần = công chức ” thì “tuyển dụng = no”
- Nếu loại “tốt nghiệp = trung bình” và “ thành phần = có công cách mạng” thì “tuyển dụng = yes”