Kiến trúc CNN đề xuất

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 98 - 99)

Kết quả sau lớp tích chập sẽ gồm 64 feature map với độ dài 19 sẽ đi qua hàm ReLU biến các giá trị âm thành 0 và được trải ra thành một mảng với độ dài 1216. Mảng gồm 1216 giá trị này sẽ được tính tốn với hàm sigmoid để cho đầu ra là giá trị từ 0 đến 1. Giá trị này được nhân với 4 để tương ứng với thang điểm 4 thực tế cần dự đốn.

5.3.2. Mơ tả dữ liệu

Để đánh giá mơ hình đề xuất, dữ liệu thực tế tại một trường đại học đa ngành được sử dụng. Tuy nhiên, mơ hình cĩ thể được áp dụng cho các trường đại học, cao đẳng hay trường phổ thơng. Dữ liệu thu thập liên quan đến sinh viên, mơn học, điểm và các thơng tin khác từ năm 2007 đến 2019 với hơn 3,8 triệu mẫu tin. Dữ liệu được phân bố thành nhiều tập được mơ tả như Bảng 5.1 với thơng tin về các mẫu và tỷ lệ tập huấn luyện của các đơn vị đào tạo.

Bảng 5.1: Phân bố dữ liệu của các đơn vị đào tạo

Tập dữ liệu #Train #Test %Train #Tổng

Sư phạm 292.297 78.987 78,73% 371.284

Mơi trường và Tài nguyên thiên nhiên 125.659 83.687 60,02% 209.346

Kinh tế 518.392 171.538 75,14% 689.930

Tập dữ liệu #Train #Test %Train #Tổng

Khoa học Xã hội và Nhân văn 96.491 47.469 67,03% 143.960

Thủy sản 109.637 49.498 68,90% 159.135

Luật 155.099 54.194 74,11% 209.293

Khoa học Chính trị 33.493 30.009 52,74% 63.502

Nghiên cứu phát triển ĐBSCL 27.795 10.206 73,14% 38.001

Nơng nghiệp 294.694 179.042 62,21% 473.736

Nghiên cứu và phát triển CNSH 46.556 30.075 60,75% 76.631

Giáo dục thể chất 26.318 6427 80,37% 32.745

Cơng nghệ 418.835 214.710 66,11% 633.545

Cơng nghệ Thơng tin và Truyền thơng 132.907 86.901 60,47% 219.808

Khoa học Tự nhiên 79.368 42.121 65,33% 121.489

Phát triển Nơng thơn 101.039 102.994 49,52% 204.033

Tổng (tồn bộ tập dữ liệu) 2.584.462 1.244.417 67,50% 3.828.879

Tập dữ liệu bao gồm kết quả học tập của sinh viên từ 16 đơn vị đào tạo. Mỗi tập dữ liệu ứng với một đơn vị đào tạo được chia thành hai phần: một phần sử dụng cho giai đoạn huấn luyện và phần cịn lại cho giai đoạn kiểm tra. Do phân chia dữ liệu theo giai đoạn (từ 2007 đến 2016 dùng huấn luyện và từ 2017 đến 2019 dùng kiểm tra) nên tỷ lệ dữ liệu cho huấn luyện và kiểm tra của mỗi đơn vị là khác nhau.

Sự phân bố phổ điểm của tồn bộ tập dữ liệu huấn luyện và kiểm tra được mơ tả trong Hình 5.2 và Hình 5.3. Chúng ta nhận thấy, hầu hết điểm đều lớn hơn hoặc bằng mức trung bình là 2 (chiếm hơn 89,7% đối với tập huấn luyện và 88,6% đối với tập kiểm tra). Sự phân bố điểm gần như tương tự như hầu hết các tập dữ liệu của các đơn vị.

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 98 - 99)

Tải bản đầy đủ (PDF)

(148 trang)