7. Bố cục luận văn
2.3.1. Lượng hóa dữ liệu để đưa vào thuật toán C4.5
Để thuật toán C4.5 xây dựng được cây quyết định hiệu quả, đáng tin cậy, trước tiên ta phải lượng hóa dữ liệu nhằm có được tập dữ liệu huấn luyện tốt nhất.
Đối với bài toán luận văn đặt ra, chúng tôi dựa vào số liệu thống kê tỷ lệ bỏ học của các ngành qua các năm đào tạo (phụ lục 15), số lượng học viên tối thiểu để mở được lớp (phụ lục 12) và dựa vào kinh nghiệm trong quá trình công tác… Từ đó, chúng tôi đã có các bước tính toán cụ thể để lập ra 1 bảng dữ liệu mẫu như sau:
Bảng 2.1. Bảng dữ liệu mẫu trợ giúp quyết định
32- 32..42 42+ 80- TLBH NCXH 24% 31% 32% 35% 39% 42% 43% 50% 80..100 80 YES NO NO NO NO NO NO NO 87 YES YES NO NO NO NO NO NO
89 YES YES YES NO NO NO NO NO
93 YES YES YES YES NO NO NO NO
99 YES YES YES YES YES NO NO NO
101..120
105 YES YES YES YES YES YES NO NO
106 YES YES YES YES YES YES YES NO
120 YES YES YES YES YES YES YES YES 120+
Qua bảng dữ liệu mẫu trên, chúng ta có thể dễ dàng nhận ra ngay với nhu cầu xã hội bao nhiêu, tỷ lệ bỏ học của học viên ở mức nào… ta có thể biết được quyết định tuyển sinh là có (YES) hay không (NO).
Ví dụ:
1. Nếu nhu cầu xã hội nằm ở khoảng 80..100 và tỷ lệ bỏ học nằm ở mức 42+ thì quyết định tuyển sinh = “NO”.
2. Nếu nhu cầu xã hội nằm ở khoảng 101..120 và tỷ lệ bỏ học nằm ở mức 32..42 thì quyết định tuyển sinh = “YES”.
3. Nếu nhu cầu xã hội nằm ở khoảng 80..100 và tỷ lệ bỏ học nằm ở mức 32..42 thì quyết định tuyển sinh = Y/N (để có quyết định phù hợp, không nhầm lẫn đối với các trường hợp có quyết định là “Y/N”. Khi cài đặt, chương trình ứng dụng sẽ có thêm bước kiểm tra, nếu nhu cầu xã hội nằm ở cận trên của mức 80..100 và tỷ lệ bỏ học nằm ở cận dưới 32..42 thì quyết định = “YES”, ngược lại quyết định = “NO”).