L ỜI CAM Đ OAN
2.4.4. Phân tích số liệu bằng DTREG1
Giới thiệu:
DTREG là chương trình phân tích thống kê mạnh, phát sinh cây quyết định phân lớp, hồi quy và mô hình SVM để mô tả mối liên hệ dữ liệu, có thể sử dụng để dự đoán giá trị cho sự khảo sát tương lai.
File dữ liệu
DTREG gồm 2 file:
File .csv (file dạng dữ liệu Excel) chứa dữ liệu nguồn phục vụ cho việc phân tích;
File dtree chứa các kết quả để hiển thị phân tích:
Hình 2.8 Kết quả cây quyết định
Đánh giá phân tích số liệu DTree
- Giao diện kết quả khó khai thác theo yêu cầu( đây là ứng dụng cài đặt cho từng máy trạm không phát triển được ứng dụng phân tích trực tuyến); - Dữ liệu đầu vào cho phân tích dạng phải định nghĩa cấu trúc file. Không có hỗ trợ kết nối trực tiếp vào cơ sở dữ liệu.
2.4.5.Phân tích số liệu sử dụng công cụ của Microsoft:
Trong phần này sẽ trình bày cách thức công cụ “Microsoft Analysis Services” được sử dụng để hiện thực mô hình cây quyết định trong phần mềm Microsoft SQL Server 2000 .Chúng ta đề cập đến tạo mô hình cây quyết định với mô hình - một sử dụng những bảng quan hệ chuẩn như là nguồn.
a).Tạo mô hình:
Bước đầu tiên trong hoạt động khai phá dữ liệu là tạo mô hình . Mô hình khai phá dữ liệu được tạo ra khác biệt với các công cụ khác là từ những mẫu tin chứa trong một nguồn dữ liệu (data source) . Một vài nguồn dữ liệu có thể được kết nối thông qua OLE DB có thể được sử dụng để tạo mô hình . Những nguồn này bao gồm cơ sở dữ liệu quan hệ , OLAP cubes, FoxPro tables, text file , hoặc thậm chí Microsoft Excel spread sheets. Chúng ta cũng sẽ tập trung vào cách thức để sử dụng những nguồn dữ liệu này để lưu trữ test case được sử dụng để tạo tiên đoán và cách thức để chứa kết quả của những tiên đoán.
Sản phẩm của Microsoft đi đôi với những tác vụ trong một giới hạn và có thể tiên đoán một số bước. Mining mode wizard sẽ dẫn dắt chúng ta từng bước để tạo một mô hình:
1. Chọn nguồn (Select source);
2. Chọn case table hoặc những bảng cho mô hình khai phá dữ liệu; 3. Chọn kĩ thuật khai phá dữ liệu (giải thuật);
4. Hiệu chỉnh những kết nối của những bảng được chọn như là nguồn trong những bước trước;
5. Chọn cột Case Key;
6. Chọn Input và cột tiên đoán; 7. Kết thúc .
b).Các thuật toán được Microsoft khuyến cáo sử dụng với kỹ thuật thực hiện:
Hình 2.9 Bảng khuyến cáo lựa chọn thuật toán của Microsoft
Từ bảng cho thấy cây quyết định là lựa chọn số 1 cho các kỹ thuật phân lớp, hồi quy và luật kết hợp. Cây quyết định không có lựa chọn thứ 2.
c).Kết luận về công cụ “Microsoft Analysis service”:
Trong các công cụ trên công cụ phân tích của Microsof thể hiện được tính ưu việt:
- Dễ ràng kết nối với hệ quản trị cơ sở dữ liệu dùng Microsoft SQL Server; - Sử dụng máy chủ (Server) phân tích chỉ cần kết nối với máy chủ phân tích có thể làm việc từ bất kỳ đâu không cần cài đặt;
- Công cụ phân tích của Microsoft sử dụng nhiều thuật toán của Datamining. Vì thế mềm dẻo thuận tiện cho khai thác nghiệp vụ thay đổi (Chi tiết về việc sử dụng để phân lớp hình thành cây quyết định sẽ được giới thiệu đầy đủ hơn trong phần công cụ lựa chọn);
- Khi cơ sở dữ liệu dùng hệ quản trị Microsoft SQL Server việc lựa chọn công cụ để phân tích dữ liệu với yêu cầu trực tuyến thì chỉ có một lựa chọn là sản phẩm của Microsoft: Microsoft Analysis Service. Với sản phẩm này người sử dụng có thể dùng Microsoft Excel để lấy dữ liệu từ cơ sở dữ liệu dùng để phân tích bảng tính.