Cây quyết định (Decision Tree) là một trong các phương pháp được sử dụng rộng rãi trong học quy nạp từ tập dữ liệu lớn. Đây là phương pháp học xấp xỉ các hàm mục tiêu
cĩ giá trị rời rạc. Một ưu điểm của phương pháp cây quyết định là cĩ thể chuyển dễ dàng
sang dạng cơ sở tri thức là các luật Nếu - Thì (If - Then).
Trên cây gồm các nút trong được gán nhãn bởi các khái niệm, các nhánh cây chứa nút được gán nhãn bằng các trọng số của khái niệm tương ứng đối với tài liệu mẫu và các lá trên cây được gán nhãn bởi các nhãn nhĩm. Một hệ thống như vậy sẽ phân loại một tài liệu di bởi phép thử đệ quy các trọng số mà các khái niệm được gán nhãn cho các nút trong với vector di cho đến khi với tới một nút lá, khi đĩ nhãn của nút này được gán cho tài liệu di. Đa số các phương pháp phân loại như vậy sử dụng biểu diễn ở dạng nhị phân và các cây cũng được biểu diễn dưới dạng nhị phân.
Hình 2.4: Ví dụ về cây quyết định Xây dựng cây quyết định
Quá trình xây dựng cây quyết định gồm hai giai đoạn: Giai đoạn thứ nhất phát triển cây quyết định:
Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy nạp theo cách thức chia để trị cho tới khi đạt được cây quyết định với tất cả các lá được gán nhãn lớp.
Giai đoạn thứ hai cắt, tỉa bớt các cành nhánh trên cây quyết định:
Giai đoạn này nhằm mục đích đơn giản hĩa và khái quát hĩa từ đĩ làm tăng độ chính xác của cây quyết định bằng cách loại bỏ sự phụ thuộc vào mức độ lỗi (noise) của dữ liệu đào tạo mang tính chất thống kê, hay những sự biến đổi mà cĩ thể là đặc tính riêng biệt của dữ liệu đào tạo. Giai đoạn này chỉ truy cập dữ liệu trên cây quyết định đã được phát triển trong giai đoạn trước và quá trình thực nghiệm cho thấy giai đoạn này khơng tốn nhiều tài nguyên tính tốn, như với phần lớn các thuật tốn, giai đoạn này chiếm khoảng dưới 1% tổng thời gian xây dựng mơ hình phân lớp.
Do vậy, ở đây chúng ta chỉ tập trung vào nghiên cứu giai đoạn phát triển cây quyết định. Dưới đây là khung cơng việc của giai đoạn này:
1) Chọn thuộc tính “tốt” nhất bằng một độ đo đã định trước
2) Phát triển cây bằng việc thêm các nhánh tương ứng với từng giá trị của thuộc tính đã chọn
4) Nếu các ví dụ được phân lớp rõ ràng thì dừng. Ngược lại: lặp lại bước 1 tới bước 4 cho từng node con
Hình 2.5: Mã giải của thuật tốn phân lớp dữ liệu dựa trên cây quyết định
Cây quyết định sử dụng một cây cho mỗi thuộc tính, một nhánh cho mỗi kết quả thử nghiệm được tạo ra. Các thuật tốn dừng khi nĩ tìm thấy một lá. Trong Weka cĩ thể sử dụng cài đặt của thuật tốn cây quyết định là J48.