7. Bố cục luận văn
1.3.4. Chọn thuật toán C4.5 xây dựng cây quyết định
Trên cơ sở giải thuật cơ bản như đã nêu trên, đã có nhiều nghiên cứu để xây dựng cây quyết định mà nổi bật là các thuật toán CART, ID3, C4.5 [4][5], SPRINT... Các thuật toán này chấp nhận sự tham lam (greedy) cách tiếp cận cây quyết định được xây dựng từ trên xuống một cách đệ quy, bắt đầu với một bộ dữ liệu huấn luyện và các nhãn lớp của họ.
Hầu hết giải thuật cây quyết định đều theo cách tiếp cận từ trên xuống. Tập dữ liệu huấn luyện được phân vùng một cách đệ quy thành tập hợp con nhỏ hơn trong lúc cây được xây dựng. Điểm khác biệt chính giữa các thuật toán này chính là tiêu chuẩn (hay còn gọi là thuộc tính phân chia) và độ đo để chọn lựa.
Trong những thuật toán nêu trên, thuật toán C4.5 là thuật toán hiệu quả cho những tập dữ liệu vừa và nhỏ (phù hợp với bài toán luận văn đề ra). C4.5 có cơ chế sinh cây quyết định hiệu quả và chặt chẽ bằng việc sử dụng độ đo lựa chọn thuộc tính tốt nhất là information-gain. Các cơ chế xử lý với giá trị lỗi, thiếu và chống “quá vừa” dữ liệu của C4.5, cùng với cơ chế cắt tỉa cây đã tạo nên sức mạnh của C4.5.
Ngoài ra, mô hình phân lớp C4.5 còn có phần chuyển đổi từ cây quyết định sang luật dạng If - Then, làm tăng độ chính xác và tính dễ hiểu của kết quả phân lớp. Đây là tiện ích rất có ý nghĩa đối với người sử dụng.
Chính vì những lý do trên mà luận văn đã chọn thuật toán C4.5 để xây dựng cây quyết định nhằm ứng dụng vào trong công tác tuyển sinh tại Viện Đại học Mở Hà Nội.