.6 Liệt kê kết quả phân lớp

- Cơ sở dữ liệu nhân sự dùng Hệ quản trị Microsoft SQL. Vì thế, để có dữ liệu cho phân tích ta phải kiết xuất dữ liệu theo định dạng;

- Giao diện kết quả khó khai thác( đây là ứng dụng cài đặt cho từng máy trạm không phát triển được ứng dụng phân tích trực tuyến);

- Dữ liệu đầu vào cho phân tích dạng bảng theo cấu trúc file csv hoặc file text. Không có hỗ trợ kết nối trực tiếp vào cơ sở dữ liệu;

- Kết quả đầu ra không trực quan.

2.4.3 Phân tích số liệu bằng See5/C5.0

“See5 là một dạng nghệ thuật của hệ thống xây dựng sự phân loại trong dạng thức của những cây quyết định và tập luật “. See5 đã được thiết kế và hoạt

động trên cơ sở dữ liệu lớn và sự kết hợp đổi mới như là boosting. Kết quả tạo ra bởi See5 và C5.0 là tương tự nhau. Hoạt động trước đây trên Windows95/98/NT của C5.0 là phần hoạt động của nó trên Unix . See 5 và C5.0 là những công cụ

khai khái dữ liệu phức tạp cho những mẫu khai phá dữ liệu mà phác họa ra những loại tập hợp chúng thành những đối tượng phân loại và sử dụng chúng để

tiên đoán.

Đặc điểm chính của C5.0 là :

C5.0 được thiết kế để phân tích những cơ sở dữ lịêu quan trọng chứa đựng hàng ngàn đến hàng trăm ngàn những records.và hàng chục đến hàng trăm số

liệu và hoặc tên trường (field);

Để tối đa khả năng giải thích , đối tượng phân loại của See5.0 /C5.0 được diễn tả như là cây quyết định hoặc tập của những luật if – then.Dạng thức của nó dễ hiểu hơn so với neutron network.

C5.0 dễ dàng sử dụng do đó không được gọi là kiến thức cao cấp của thống kê và học máy.

Xử lý file dữ liệu

Mỗi bộ dữ liệu dùng trong See5/C5.0 gồm có 3 file: -Filestem.names: định nghĩa bộ dữ liệu;

-Filestem.data: chứa dữ liệu training, có cấu trúc như sau: mỗi dòng tương ứng với một bản ghi (cases) trong cơ sở dữ liệu. Mỗi dòng một bộ giá trị theo thứđã

định của các thuộc tính định nghĩa trong filestem.names. Các giá trị ngăn cách nhau bởi dấu phảy. Giá trị thiếu (missing value) được biểu diễn bằng dấu “?”.

-Filestem.test: chứa dữ liệu test, File này chứa dữ liệu test trên mô hình phân lớp

đã được tạo ra từ tập dữ liệu training, và có cấu trúc giống filestem.data.

Đánh giá hỗ trợ của See5/C5.0 về mặt phân tích và dự đoán số liệu:

- Cơ sở dữ liệu nhân sự dùng Hệ quản trị Microsoft SQL. Vì thế, để có dữ

liệu cho phân tích ta phải kiết xuất dữ liệu theo định dạng;

- Giao diện kết quả khó khai thác theo yêu cầu( đây là ứng dụng cài đặt cho từng máy trạm không phát triển được ứng dụng phân tích trực tuyến);

- Dữ liệu đầu vào cho phân tích dạng phải định nghĩa cấu trúc file. Không có hỗ trợ kết nối trực tiếp vào cơ sở dữ liệu;

- Kết quả đầu ra không trực quan.

2.4.4. Phân tích số liệu bằng DTREG1

Giới thiệu:

DTREG là chương trình phân tích thống kê mạnh, phát sinh cây quyết

định phân lớp, hồi quy và mô hình SVM để mô tả mối liên hệ dữ liệu, có thể sử

dụng để dự đoán giá trị cho sự khảo sát tương lai.

File dữ liệu

DTREG gồm 2 file:

File .csv (file dạng dữ liệu Excel) chứa dữ liệu nguồn phục vụ cho việc phân tích;

File dtree chứa các kết quảđể hiển thị phân tích:

Phân tích số liệu bằng R: 38

.8 Kết quả cây quyết định