Kết quả sau lớp tích chập sẽ gồm 64 feature map với độ dài 19 sẽ đi qua hàm ReLU biến các giá trị âm thành 0 và được trải ra thành một mảng với độ dài 1216. Mảng gồm 1216 giá trị này sẽ được tính tốn với hàm sigmoid để cho đầu ra là giá trị từ 0 đến 1. Giá trị này được nhân với 4 để tương ứng với thang điểm 4 thực tế cần dự đốn.
5.3.2. Mơ tả dữ liệu
Để đánh giá mơ hình đề xuất, dữ liệu thực tế tại một trường đại học đa ngành được sử dụng. Tuy nhiên, mơ hình cĩ thể được áp dụng cho các trường đại học, cao đẳng hay trường phổ thơng. Dữ liệu thu thập liên quan đến sinh viên, mơn học, điểm và các thơng tin khác từ năm 2007 đến 2019 với hơn 3,8 triệu mẫu tin. Dữ liệu được phân bố thành nhiều tập được mơ tả như Bảng 5.1 với thơng tin về các mẫu và tỷ lệ tập huấn luyện của các đơn vị đào tạo.
Bảng 5.1: Phân bố dữ liệu của các đơn vị đào tạo
Tập dữ liệu #Train #Test %Train #Tổng
Sư phạm 292.297 78.987 78,73% 371.284
Mơi trường và Tài nguyên thiên nhiên 125.659 83.687 60,02% 209.346
Kinh tế 518.392 171.538 75,14% 689.930
Tập dữ liệu #Train #Test %Train #Tổng
Khoa học Xã hội và Nhân văn 96.491 47.469 67,03% 143.960
Thủy sản 109.637 49.498 68,90% 159.135
Luật 155.099 54.194 74,11% 209.293
Khoa học Chính trị 33.493 30.009 52,74% 63.502
Nghiên cứu phát triển ĐBSCL 27.795 10.206 73,14% 38.001
Nơng nghiệp 294.694 179.042 62,21% 473.736
Nghiên cứu và phát triển CNSH 46.556 30.075 60,75% 76.631
Giáo dục thể chất 26.318 6427 80,37% 32.745
Cơng nghệ 418.835 214.710 66,11% 633.545
Cơng nghệ Thơng tin và Truyền thơng 132.907 86.901 60,47% 219.808
Khoa học Tự nhiên 79.368 42.121 65,33% 121.489
Phát triển Nơng thơn 101.039 102.994 49,52% 204.033
Tổng (tồn bộ tập dữ liệu) 2.584.462 1.244.417 67,50% 3.828.879
Tập dữ liệu bao gồm kết quả học tập của sinh viên từ 16 đơn vị đào tạo. Mỗi tập dữ liệu ứng với một đơn vị đào tạo được chia thành hai phần: một phần sử dụng cho giai đoạn huấn luyện và phần cịn lại cho giai đoạn kiểm tra. Do phân chia dữ liệu theo giai đoạn (từ 2007 đến 2016 dùng huấn luyện và từ 2017 đến 2019 dùng kiểm tra) nên tỷ lệ dữ liệu cho huấn luyện và kiểm tra của mỗi đơn vị là khác nhau.
Sự phân bố phổ điểm của tồn bộ tập dữ liệu huấn luyện và kiểm tra được mơ tả trong Hình 5.2 và Hình 5.3. Chúng ta nhận thấy, hầu hết điểm đều lớn hơn hoặc bằng mức trung bình là 2 (chiếm hơn 89,7% đối với tập huấn luyện và 88,6% đối với tập kiểm tra). Sự phân bố điểm gần như tương tự như hầu hết các tập dữ liệu của các đơn vị.