Việc xây dựng cây quyết định thường thơng qua các bước: tạo cây, cắt tỉa và
đánh giá.
Quá trình tạo cây quyết định được thực hiện bằng cách chia đệ quy tập dữ liệu mẫu cho tới khi mọi nút lá đều thuần nhất. Thuần nhất nghĩa là tất cả các mẫu dữ liệu
ở cùng một lớp. Nếu các nút lá là khơng thuần nhất, cần thiết phải được kiểm tra để
tìm ra phép tách tốt nhất. Thuộc tính được lựa chọn sau kiểm tra sẽđược gán nhãn cho nút tách đĩ và tập dữ liệu sẽđược chia ra thêm nữa theo các giá trị của thuộc tính.
4.1.4.2. Cắt tỉa cây quyết định
Bước cắt tỉa cây quyết định được sử dụng để tối ưu hĩa cây thu được sau khi tạo, bao gồm: tối ưu vềđộ lớn của cây và tối ưu vềđộ chính xác của sự phân lớp bằng cách cắt tỉa các nhánh khơng phù hợp. Thơng thường cây được sinh ra sẽ hoạt động tốt trên tập huấn luyện nhưng cĩ thể hoạt động khơng chính xác đối với tập dữ liệu ẩn hoặc khơng thấy được. Các dữ liệu này là các dữ liệu bị nhiễu hoặc thiếu trong tập huấn luyện. Bước cắt tỉa nhằm mục tiêu cố gắng loại bỏ các nhánh bị lỗi khỏi cây và giữ lại độ chính xác phân lớp của cây.
4.1.4.3. ðánh giá cây quyết định
ðộ chính xác của cây kết quảđược xác định thơng qua sử dụng một tập dữ liệu khơng nhìn thấy độc lập. Cây được áp dụng cho từng dữ liệu đầu vào và nhãn của lớp
đã được dự đốn trước so sánh với nhãn lớp thực tế. Vì thế, tiêu chuẩn đánh giá là số
các mẫu được phân lớp chính xác.