6. Cấu trúc luận văn
1.3.2.3. Các vấn đề trong KPDL sử dụng cây quyết định
Các vấn đề đặc thù trong khi học hay phân lớp dữ liệu bằng cây quyết định gồm: xác định độ sâu để phát triển cây quyết định, xử lý với những thuộc tính liên tục, chọn phép đo lựa chọn thuộc tính thích hợp, sử dụng tập dữ liệu huấn luyện với những giá trị thuộc tính bị thiếu, sử dụng các thuộc tính với những chi phí khác nhau, và cải thiện hiệu năng tính toán.
Cây quyết định dễ xảy ra lỗi khi có quá nhiều lớp. Một số cây quyết định chỉ thao tác với những lớp giá trị nhị phân dạng yes/no hay accept/reject. Số khác lại có thể chỉ định các bản ghi vào một số lớp bất kỳ, nhƣng dễ xảy ra lỗi khi số ví dụ huấn luyện ứng với một lớp là nhỏ. Điều này xảy ra càng nhanh hơn với cây mà có nhiều tầng hay có nhiều nhánh trên một node.
Chi phí tính toán đắt để huấn luyện: Cây quyết định có rất nhiều node trong trƣớc khi đi đến lá cuối cùng. Tại từng node, cần tính một độ đo (hay tiêu chuẩn phân chia) trên từng thuộc tính, với thuộc tính liên tục phải thêm thao tác sắp xếp lại tập dữ liệu theo thứ tự giá trị của thuộc tính đó. Sau đó mới có thể chọn đƣợc một thuộc tính phát triển và tƣơng ứng là một phân chia tốt nhất. Quá trình cắt tỉa cây cũng ―đắt‖ vì nhiều cây con ứng cử phải đƣợc tạo ra và so sánh.
1.3.3. Thuật toán sử dụng xây dựng cây quyết định
Tạo cây quyết định chính là quá trình phân tích cơ sở dữ liệu, phân lớp và đƣa ra dự đoán. Cây quyết định đƣợc tạo thành bằng cách lần lƣợt chia (đệ quy) một tập dữ liệu thành các tập dữ liệu con, mỗi tập con đƣợc tạo thành chủ yếu từ các phần tử của cùng một lớp. Lựa chọn thuộc tính để tạo nhánh thông qua Entropy và Gain.
Cây quyết định có thể đƣợc mô tả nhƣ là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trƣớc.
Dữ liệu đƣợc cho dƣới dạng các bản ghi có dạng:( , )x y ( ,x x x1 2, 3,...,x yk, ). Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa. x x x1, 2, ...3 là các biến sẽ giúp ta thực hiện công việc đó.