Phân bố dữ liệu của các đơn vị đào tạo

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 106 - 108)

Sư phạm

Mơi trường và Tài nguyên thiên nhiên Kinh tế

Ngoại ngữ

Tập dữ liệu

Khoa học Xã hội và Nhân văn Thủy sản

Luật

Khoa học Chính trị

Nghiên cứu phát triển ĐBSCL Nơng nghiệp

Nghiên cứu và phát triển CNSH Giáo dục thể chất

Cơng nghệ

Cơng nghệ Thơng tin và Truyền thơng Khoa học Tự nhiên

Phát triển Nơng thơn

Tổng (tồn bộ tập dữ liệu)

Tập dữ liệu bao gồm kết quả học tập của sinh viên từ 16 đơn vị đào tạo. Mỗi tập dữ liệu ứng với một đơn vị đào tạo được chia thành hai phần: một phần sử dụng cho giai đoạn huấn luyện và phần cịn lại cho giai đoạn kiểm tra. Do phân chia dữ liệu theo giai đoạn (từ 2007 đến 2016 dùng huấn luyện và từ 2017 đến 2019 dùng kiểm tra) nên tỷ lệ dữ liệu cho huấn luyện và kiểm tra của mỗi đơn vị là khác nhau.

Sự phân bố phổ điểm của tồn bộ tập dữ liệu huấn luyện và kiểm tra được mơ tả trong Hình 5.2 và Hình 5.3. Chúng ta nhận thấy, hầu hết điểm đều lớn hơn hoặc bằng mức trung bình là 2 (chiếm hơn 89,7% đối với tập huấn luyện và 88,6% đối với tập kiểm tra). Sự phân bố điểm gần như tương tự như hầu hết các tập dữ liệu của các đơn vị.

Hình 5.3: Phân bố các mức điểm trên tập kiểm tra của tồn bộ tập dữ liệu5.3.3. Tiền xử lý dữ liệu 5.3.3. Tiền xử lý dữ liệu

Tập dữ liệu được thu thập từ một hệ thống quản lý sinh viên cĩ 65 thuộc tính. Sau khi phân tích các yếu tố ảnh hưởng đến kết quả học tập của sinh viên bằng phương pháp Pearson, các thuộc tính cĩ ảnh hưởng đến kết quả dự đốn của mơ hình (các thuộc tính tương đối độc lập) đã được chọn. Các thuộc tính này được mơ tả như Bảng 5.2. Trong đĩ, Mark (điểm mơn học) là thuộc tính cần dự đốn, các thuộc tính khác là dữ liệu đầu vào của mơ hình dự đốn.

Dữ liệu cĩ rất nhiều thơng tin, chúng tơi cần tiền xử lý trước khi chạy mơ hình. Một số cơng việc tiền xử lý gồm: loại bỏ các thuộc tính dư thừa như tên sinh viên, tên mơn học, tên giảng viên, lịch học, ngày tham gia tổ chức đồn thể; loại bỏ dữ liệu gây nhiễu như điểm miễn (-2), điểm chưa hồn thành mơn học (-1), điểm rút mơn học (-5), những trường hợp sinh viên đăng ký nhưng khơng tham gia học tập (null); xử lý những thuộc tính khơng đủ thơng tin như khơng gán ID người dạy, mơn học khơng tổ chức giảng dạy do cĩ dưới 15 sinh viên đăng ký; chuyển đổi định dạng từ kiểu chuỗi sang kiểu số.

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 106 - 108)

Tải bản đầy đủ (DOCX)

(159 trang)
w