Huấn luyện cây: là quá trình tạo cây sao cho khả năng học và tổng quát hóa mà nó đạt được là cao nhất. Bản chất của việc làm này là tính toán lượng thông tin nhận được trên các thuộc tính và chọn thuộc tính tương ứng có lượng thông tin tối đa làm nút phân
22
tách trên cây. Hai kiểu huấn luyện mạng phổ biến là học có giám sát (supervised learing) và học không có giám sát (unsupervised learing)
Hoc có giám sát: là phương pháp học thực hiện một công việc nào đó dưới sự giám sát của một thầy giáo. Học có giám sát yêu cầu nhà phân tích dữ liệu xác định một thuộc tính đích hay biến phụ thuộc. Sau đó xem xét toàn bộ dữ liệu để cố gắng tìm ra những mẫu hoặc các mối quan hệ giữa các thuộc tính độc lập (dự báo) và thuộc tính phụ thuộc. Học có giám sát sử dụng dữ liệu trong quá khứđể xây dựng mô hình và sử dụng mô hình này để phân lớp dữ liệu mới và dự báo các lớp thành viên hay lớp giá trị
Học không có giám sát: là phương pháp học để thực hiện một công việc nào đó mà không cần bất kỳ sự giám sát nào
Các nghiên cứu và thực nghiệm cho thấy rằng: phương pháp học có giám sát là phương pháp huấn luyện phổ biến và hiệu quảđối với cây quyết định
Một cây quyết định có thểđược học bằng cách lần lượt chia (đệ quy) một tập dữ liệu thành các tập dữ liệu con, một tập con được tạo thành chủ yếu từ các phần tử của cùng một lớp
Tại mỗi nút của cây thì các thuật toán đều tính lượng thông tin nhận được trên các thuộc tính và chọn thuộc tính tương ứng có lượng thông tin tối đa làm nút phân tách trên cây-tức là thuộc tính chia tập mẫu thành các lớp mà mỗi lớp có một phân loại duy nhất hay ít nhất thuộc tính phải có triển vọng đạt được điều này, nhằm đểđạt được cây có ít nút nhưng có khả năng dựđoán cao.
Quá trình đệ quy hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa hay đầu ra thực tế của cây gần với đầu ra mong muốn nhất