Chương 2 NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.4. Giới thiệu phần mềm DTREG
DTREG là chương trình phân tích thống kê mạnh mẽ, có khả năng xây dựng cây quyết định phân lớp, hồi quy và máy vector hỗ trợ (SVM) để mô tả mối liên hệ giữa dữ liệu, và có thể sử dụng để dự đốn giá trị khảo sát trong tương lai.
DTREG chấp nhận tập hợp dữ liệu chứa nhiều dòng với một cột cho mỗi biến. Một trong các biến là biến mục tiêu, giá trị của nó được mơ hình hóa và được dự đốn như là một hàm của biến dự báo. DTREG phân tích giá trị và cho ra một mơ hình chỉ cách tốt nhất để dự đoán giá trị của biến kết quả dựa trên giá trị biến dự báo. Ngồi việc xây dựng mơ hình dự báo, DTREG cịn đo chất lượng mơ hình.
DTREG có thể tạo những mơ hình cây đơn cổ điển (SingleTree) cũng như TreeBoost, Decision Tree Forest gồm có nhiều cây. DTREG cũng có thể xây dựng mơ hình Support Vector Machine (SVM) và Hồi quy logictic (Logistic Regression). DTREG bao gồm ngôn ngữ chuyển đổi dữ liệu (DTL: data transformation language) để chuyển đổi biến, tạo ra biến mới và chọn các dịng để phân tích.
Chương trình DTREG phân tích tập giá trị dữ liệu và tạo ra cây quyết định. Cây quyết định có thể sử dụng để dự đốn giá trị của biến mục tiêu dựa trên những giá trị của những biến dự báo. Giống như một cái cây thật, cây quyết định có gốc, nhánh và lá. Một dự đốn được tạo bằng cách căn cứ vào cây từ gốc, theo nhánh trái hoặc phải dựa vào giá trị biến dự báo cho đến khi tới lá. Mỗi lá chỉ ra giá trị có khả năng phù hợp nhất cho biến mục tiêu đã cho bởi giá trị dự báo dẫn đến lá.
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo. Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng.
Trong lý thuyết quyết định (chẳng hạn quản lý rủi ro), một cây quyết định (decision tree) là một đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài nguyên). Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây (Hình 2.1).
Hình 2.2. Nguyên tắc phân nhánh cây quyết định
DTREG là một ứng dụng thiết thực được cài đặt dễ dàng trên các hệ thống Windows bất kỳ. DTREG dùng giá trị phân cách dấu phẩy những file dữ liệu để dễ dàng tạo ra hầu hết các nguồn dữ liệu bất kỳ. Một khi bạn tạo những file dữ liệu của bạn, ngay khi cung cấp nó vào trong DTREG, và để DTREG làm tất cả cơng việc tạo cây quyết định, SVM hoặc mơ hình Logistic Regression. Ngay cả những phân tích phức tạp cũng có thể thực hiện trong vài phút.
Cây phân lớp và cây hồi quy: DTREG có thể xây dựng cây phân lớp nơi mà biến kết quả được dự đoán là categorical và cây hồi quy khi mà biến kết quả là continuous như số lượng thu vào hoặc bán ra.
Bằng cách đánh dấu (check) một button, bạn có thể điều khiển DTREG xây dựng một lớp mơ hình Single-tree, một mơ hình TreeBoost gồm có một chuỗi cây, Decision Tree Forest.
Tự động tỉa (pruning) cây: DTREG sử dụng V-fold cross-validation để quyết định kích thước tối ưu của cây. Thủ tục này để tránh vấn đề vượt giới hạn nơi đó cây phát sinh phù hợp tốt với dữ liệu “huấn luyện” nhưng khơng cung cấp dự đốn chính xác dữ liệu mới.
Việc chia thay thế (Surrogate splitters) cho dữ liệu thiếu: DTREG sử dụng một kỹ thuật tinh vi để giải quyết việc chia thay thế dữ liệu (Surrogate splitters ) trong trường hợp thiếu giá trị. Điều này cho phép những trường hợp có giá trị và một vài trường hợp thiếu giá trị được sử dụng để dự đoán giá trị cho những trường hợp thiếu giá trị.
Trình bày trực quan cây: DTREG có thể trình bày cây quyết định đã phát sinh trên màn hình, ghi vào file hình ảnh .jpg hoặc file .png để in nó. Khi in DTREG sử dụng kỹ thuật tinh vi để đánh số cây qua nhiều trang.
DTREG chấp nhận dữ liệu text cũng như dữ liệu số: Data transformation language (DTL) DTREG bao gồm một ngôn ngữ chuyển đổi dữ liệu để chuyển đổi biến, tạo các biến mới.
Lưu những thơng tin đã phân tích vào Project files: DTREG lưu tất cả những thông tin về biến, phấn tích tham số cũng như bản tường thuật và cây phát sinh vào project file. Sau này bạn có thể mở project file, những tham số thay đổi hoặc trả về với một tập dữ liệu khác.
Cho điểm những giá trị dự đoán: Khi cây quyết định đã được xây dựng, bạn có thể dùng DTREG để cho điểm tập dữ liệu mới và giá trị dự đoán cho biến kết quả.
Tạo Source code tính điểm: Chức năng “Translate” trong DTREG phát sinh source code C, C++ và SAS@ để tính tốn giá trị dự đốn. Source code này có thể được bao gồm trong chương trình ứng dụng để thực hiện việc cho điểm vùng dữ liệu lớn. Có khả năng rất mạnh: Enterprise Version của DTREG có thể sử dụng khơng giới hạn số dịng dữ liệu. DTREG có thể xây dựng cây phân lớp với những biến dự báo có hàng trăm loại biến dự báo được sử dụng một thuật toán gom cụm hiệu quả