Sau khi chuẩn hóa dữ liệu, chúng ta chia dữ liệu thành hai tập: tập huấn luyện (training set), tập kiểm chứng (validation test). Hai tập dữ liệu này được để trên hai bảng khác nhau. Tập huấn luyện thường là tập lớn nhất chiếm khoảng 70% tập dữ liệu ban đầu sử dụng để huấn luyện mô hình. Tập kiểm chứng chiếm khoảng 30% tập dữ liệu ban đầu
35
dùng đểđánh giá mô hình được chọn có thật sự tốt hay không và để tìm ra được tham số tốt nhất cho mô hình
Hiện tượng overfiting xảy ra khi cây được tạo ra có thể quá khít với dữ liệu huấn luyện. Việc quá khít có thể xảy ra trong những trường hợp quá nhiều nhánh, một số có thể phản ánh sự dị thường vì những phần tử hỗn loạn (noise) hoặc những phần tử nằm ngoài phân lớp (outlier). Kết quả nhận được thiếu chính xác đối với những mẫu chưa thấy. Với cây quyết định, số nhánh và kích thước tập huấn luyện có ảnh hưởng quyết định đến nguy cơ overfiting [21].
Để ngăn chặn nguy cơ overfitting (hiện tượng khả năng học của mạng là rất tốt nhưng khả năng tổng quát hóa của mạng là kém, tức là mạng dựđoán tốt với những dữ liệu đã được huấn luyện nhưng lại tỏ ra kém hiệu quả khi dữ liệu mới vào mô hình) thì người ta phân chia tập huấn luyện thành tập dữ liệu huấn luyện (2/3) và dữ liệu thử
nghiệm (1/3), sử dụng sựđánh giá chéo. Cũng có một cách khác là sử dụng tất cả dữ liệu để huấn luyện nhưng áp dụng kiểm tra thống kê để định lượng khi nào mở rộng hoặc tỉa bớt một nút để có thể cải thiện toàn bộ sự phân phối
Dữ liệu kiểm chứng Dữ liệu huấn luyện
36