a. Định nghĩa
Cây quyết định (decision tree) là một trong những hình thức mô tả dữ liệu trực quan nhất, dễ hiểu nhất đối với người dùng. Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (prediction model), nghĩa là ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng.
b. Cấu trúc
Một cây quyết định là một sơ đồ có cấu trúc dạng cây bao gồm các nút và các nhánh.
Nút dưới cùng được gọi là nút lá, trong mô hình phân lớp dữ liệu chính là các giá trị của các nhãn lớp (gọi tắt là nhãn). Các nút khác nút lá được gọi là các nút con, đây còn là các thuộc tính của tập dữ liệu, hiển nhiên các thuộc tính này phải khác thuộc tính phân lớp.
44 Các lần huấn luyện
Giá trị hàm đánh giá (RMSE) Lần 1 0.5035 Lần 2 0.5008 Lần 3 0.4978 Lần 4 0.3694 Lần 5 0.3031 Lần 6
Mỗi một nhánh của cây xuất phát từ một nút p nào đó ứng với một phép so sánh dựa trên miền giá trị của nút đó. Nút đầu tiên được gọi là nút gốc của cây
Hình 5.5 – Mô hình cây quyết định
Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước
Dữ liệu được cho dưới dạng các bản ghi có dạng:
(x, y) = (x1, x2, x3….xk, y)
Biến phụ thuộc y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa x1,
x2, x3…. là các biến sẽ giúp ta thực hiện công việc đó
c. Thực nghiệm với mô hình cây quyết định
Trong weka mô hình cây quyết định được thực hiện bởi dòng lệnh: weka.classifiers.trees.J48
Dựa trên một vài thực nghiệm về cây quyết định trên các tập huấn luyện và kiểm chứng khác nhau rồi tổng hợp những kết quả thu được tôi nhận thấy rằng với tham số C = 0.25 và M = 3 thì sẽ thu được mô hình cây quyết định với độ chính xác khá tốt. Thực hiện tính toán với cây quyết trên mười bộ dữ liệu ta có bảng thống kê kết quả như sau:
Bảng 5.2 – Huấn luyện cây quyết định