- Cây quyết định cho chức năng hoạch định nhân sự:
CHƢƠNG 4 THỰC NGHIỆM 4.1.Giới thiệu về mô hình xây dựng
4.2. Mô tả các bƣớc xây dựng mô hình
Bƣớc 1: Thiết kế CSDL mẫu để phục vụ cho quá trình xây dựng cây quyết định:
CSDL được thiết kế với 2 định dạng: excel để phục vụ cho việc xây dựng cây quyết định từ phần mềm mã nguồn mở Weka và SQL Server 2005 để phục vụ cho phần mềm ứng dụng
Hình 4.2 Dữ liệu mẫu excel
Hình 4.3 Dữ liệu mẫu SQL
Với CSDL Excel ta có thể tạo một cách dễ dàng và thông thường nguồn dữ liệu mẫu chủ yếu là dưới định dạng excel do đó để thuận tiện cho cho việc tạo dữ liệu trong SQL server ta có thể làm đơn giản như sau:
- Chuẩn bị file mẫu dưới định dạng Excel, xử lý dữ liệu gọn gàn và lựa chọn kiểu dữ liệu trong các column cho phù hợp các định dạng trong SQL Server.
- Trong SQL ta tạo ra một bảng dữ liệu với số column và định dạng trùng khớp với file mẫu excel như sau:
Hình 4.4 Minh họa tạo dữ liệu
Hình 4.5 Minh họa tạo dữ liệu
Bƣớc 2: Xác định thuộc tính cần dự đoán và thuộc tính đầu vào cho mô hình . Xây dựng cây quyết định để phân lớp dữ liệu
Xác định tập dữ liệu huấn luyện:
- Là tập dữ liệu gồm 4373 hồ sơ dự tuyển công chức ngành giáo dục được tập hợp từ năm 2008, bao gồm cả kết quả tuyển dụng.( Như hình 4.5)
Nhấp chuột và Click Ctrl V
- Với tập dữ liệu huấn luyện này ta sẽ dùng thuật toán phân lớp C4.5 để tạo ra cây quyết định phân lớp dữ liệu.
Hình 4.6 Minh họa cây quyết định phân lớp dữ liệu
- Dựa vào cây quyết định được sinh ra ta viết thuật toán tự động rút ra các luật phân lớp cho mô hình.
- Các luật phân lớp đã được phát hiện này sau đó được dùng để phân lớp hồ sơ cán bộ.
Hình 4.7 Các luật phân lớp được rút ra từ cây quyết định
Kiểm tra độ chính xác của các luật phân lớp trên tập dữ liệu mẫu thử
- Chuẩn bị tập dữ liệu kiểm tra là 100 hồ sơ dự tuyển chưa được phân lớp tuyển dụng để kiểm tra độ chính xác khi phân lớp.
Hình 4.8 Dữ liệu mẫu thử
- Kết quả tuyển dụng sau khi kiểm tra bằng các luật rút ra từ cây quyết định cho ta kết quả chính xác so với tập dữ liệu huấn luyện ban đầu.
Kiểm tra độ chính xác của thuật toán C4.5 sinh cây quyết định đã cài đặt bằng phần mềm hỗ trợ Weka
Với thuộc tính đầu vào là toàn bộ các column trong file mẫu Excel và thuộc tính phân lớp là “Tuyen dung” ta xây dựng cây quyết định như sau:
Phân lớp dữ liệu:
- File mẫu Excel được Save as dưới định dang *.csv.
Hình 4.10 Minh họa open file trong weka
- Để thực hiện phân lớp, đầu tiên chúng ta phải chọn file cần phân lớp (Hình 4.6 là hình ảnh sau khi tải file dữ liệu).
- Sau khi mở file, chọn tab Classify. Nhấn nút Choose để chọn phân lớp theo luật nào: Bayes, C4.5,…(tương đương C4.5 , trong Weka là J48).
- Chọn phân lớp theo thuật toán J48 ( tương đương là thuật toán C4.5)
- Kết quả sẽ hiện ra trên màn hình bên phải:
Hình 4.13 Liệt kê kết quả phân lớp
Các lớp được phân ra từ phần mềm là:
Với file mẫu vừa rồi ta phân ra được thành 2 lớp là “Yes” và “No”. - Thuộc tính “Yes” là các dòng dữ liệu có kết quả tuyển dụng là yes. - Thuộc tính “No” là các dòng dữ liệu có kết quả tuyển dụng là no.
Dữ liệu đã được phân lớp
Cây quyết định được sinh ra:
- Để hiển thị cây quyết định ta chọn vào tree.J48 nằm bên khung góc trái màn hình và chọn Vissualize tree
- Cây quyết định được hiển thị
Hình 4.15 Cây quyết định tuyển dụng nhân sự
Chú thích :
- bt: bình thường
- tb: trung bình