CHƯƠNG 2 : TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ CÂY QUYẾT ĐỊNH
2.2.2.2 Nhược điểm cây quyết định
Dù có những sức mạnh nổi bật trên, cây quyết định vẫn khơng tránh khỏi có những điểm yếu.
Khơng thích hợp với những bài tốn dự đốn giá trị của thuộc tính liên tục: Cây quyết định khơng thích hợp lắm với những bài tốn có mục tiêu dự đốn các thuộc tính có giá trị liên tục như: thu nhập, huyết áp hay lãi suất ngân hàng,... Cây quyết định cũng khó giải quyết với những dữ liệu thời gian liên tục nếu không bỏ ra nhiều công sức cho việc đặt ra sự biểu diễn dữ liệu theo các mẫu liên tục.
Dễ xảy ra lỗi khi có quá nhiều lớp: Một số cây quyết định chỉ thao tác với những lớp giá trị nhị phân dạng yes/no hay accept/reject. Số khác lại có thể chỉ định các bản ghi vào một số lớp bất kỳ, nhưng dễ xảy ra lỗi khi số ví dụ đào tạo ứng với một lớp là nhỏ. Điều này xảy ra càng nhanh hơn với cây mà có nhiều tầng hay có nhiều nhánh trên một node.
Chi phí tính tốn đắt để đào tạo: Điều này nghe có vẻ mâu thuẫn với khẳng định ưu điểm của cây quyết định ở trên. Nhưng q trình phát triển cây quyết định đắt về mặt tính tốn. Vì cây quyết định có rất nhiều node trong trước khi đi đến lá cuối cùng. Tại từng node, cần tính một độ đo (hay tiêu chuẩn phân chia) trên từng thuộc tính, với thuộc tính liên tục phải thêm thao tác xắp xếp lại tập dữ liệu theo thứ tự giá trị của thuộc tính đó. Sau đó mới có thể chọn được một thuộc tính phát triển và tương ứng là một phân chia tốt nhất. Một vài thuật toán sử dụng tổ hợp các thuộc tính kết hợp với nhau có trọng số để phát triển cây quyết định. Quá trình cắt cụt cây cũng “đắt” vì nhiều cây con ứng cử phải được tạo ra và so sánh.