Phân tích số liệu bằng DTREG1 44 

Một phần của tài liệu Phân lớp dữ liệu nhân sự hỗ trợ công tác quản lý nguồn nhân lực (Trang 46)

Giới thiệu:

DTREG là chương trình phân tích thống kê mạnh, phát sinh cây quyết

định phân lớp, hồi quy và mô hình SVM để mô tả mối liên hệ dữ liệu, có thể sử

dụng để dự đoán giá trị cho sự khảo sát tương lai.

File dữ liệu

DTREG gồm 2 file:

File .csv (file dạng dữ liệu Excel) chứa dữ liệu nguồn phục vụ cho việc phân tích;

File dtree chứa các kết quảđể hiển thị phân tích:

Hình 2.8 Kết quả cây quyết định

Đánh giá phân tích số liệu DTree

- Giao diện kết quả khó khai thác theo yêu cầu( đây là ứng dụng cài đặt cho từng máy trạm không phát triển được ứng dụng phân tích trực tuyến);

- Dữ liệu đầu vào cho phân tích dạng phải định nghĩa cấu trúc file. Không có hỗ trợ kết nối trực tiếp vào cơ sở dữ liệu.

2.4.5.Phân tích số liệu sử dụng công cụ của Microsoft:

Trong phần này sẽ trình bày cách thức công cụ “Microsoft Analysis Services” được sử dụng để hiện thực mô hình cây quyết định trong phần mềm Microsoft SQL Server 2000 .Chúng ta đề cập đến tạo mô hình cây quyết định với mô hình - một sử dụng những bảng quan hệ chuẩn như là nguồn.

a).Tạo mô hình:

Bước đầu tiên trong hoạt động khai phá dữ liệu là tạo mô hình . Mô hình khai phá dữ liệu được tạo ra khác biệt với các công cụ khác là từ những mẫu tin chứa trong một nguồn dữ liệu (data source) . Một vài nguồn dữ liệu có thể được kết nối thông qua OLE DB có thể được sử dụng để tạo mô hình . Những nguồn này bao gồm cơ sở dữ liệu quan hệ , OLAP cubes, FoxPro tables, text file , hoặc thậm chí Microsoft Excel spread sheets. Chúng ta cũng sẽ tập trung vào cách thức để sử dụng những nguồn dữ liệu này để lưu trữ test case được sử dụng để

tạo tiên đoán và cách thức để chứa kết quả của những tiên đoán.

thể tiên đoán một số bước. Mining mode wizard sẽ dẫn dắt chúng ta từng bước

để tạo một mô hình:

1. Chọn nguồn (Select source);

2. Chọn case table hoặc những bảng cho mô hình khai phá dữ liệu; 3. Chọn kĩ thuật khai phá dữ liệu (giải thuật);

4. Hiệu chỉnh những kết nối của những bảng được chọn như là nguồn trong những bước trước;

5. Chọn cột Case Key;

6. Chọn Input và cột tiên đoán; 7. Kết thúc .

b).Các thuật toán được Microsoft khuyến cáo sử dụng với kỹ thuật thực hiện:

Hình 2.9 Bảng khuyến cáo lựa chọn thuật toán của Microsoft

Từ bảng cho thấy cây quyết định là lựa chọn số 1 cho các kỹ thuật phân lớp, hồi quy và luật kết hợp. Cây quyết định không có lựa chọn thứ 2.

c).Kết luận về công cụ “Microsoft Analysis service”:

Trong các công cụ trên công cụ phân tích của Microsof thể hiện được tính

ưu việt:

- Sử dụng máy chủ (Server) phân tích chỉ cần kết nối với máy chủ phân tích có thể làm việc từ bất kỳ đâu không cần cài đặt; (adsbygoogle = window.adsbygoogle || []).push({});

- Công cụ phân tích của Microsoft sử dụng nhiều thuật toán của Datamining. Vì thế mềm dẻo thuận tiện cho khai thác nghiệp vụ thay đổi (Chi tiết về việc sử

dụng để phân lớp hình thành cây quyết định sẽ được giới thiệu đầy đủ hơn trong phần công cụ lựa chọn);

- Khi cơ sở dữ liệu dùng hệ quản trị Microsoft SQL Server việc lựa chọn công cụ để phân tích dữ liệu với yêu cầu trực tuyến thì chỉ có một lựa chọn là sản phẩm của Microsoft: Microsoft Analysis Service. Với sản phẩm này người sử

dụng có thể dùng Microsoft Excel để lấy dữ liệu từ cơ sở dữ liệu dùng để phân tích bảng tính.

Một phần của tài liệu Phân lớp dữ liệu nhân sự hỗ trợ công tác quản lý nguồn nhân lực (Trang 46)