5.3.3. Tiền xử lý dữ liệu
Tập dữ liệu được thu thập từ một hệ thống quản lý sinh viên cĩ 65 thuộc tính. Sau khi phân tích các yếu tố ảnh hưởng đến kết quả học tập của sinh viên bằng phương pháp Pearson, các thuộc tính cĩ ảnh hưởng đến kết quả dự đốn của mơ hình (các thuộc tính tương đối độc lập) đã được chọn. Các thuộc tính này được mơ tả như Bảng 5.2. Trong đĩ, Mark (điểm mơn học) là thuộc tính cần dự đốn, các thuộc tính khác là dữ liệu đầu vào của mơ hình dự đốn.
Dữ liệu cĩ rất nhiều thơng tin, chúng tơi cần tiền xử lý trước khi chạy mơ hình. Một số cơng việc tiền xử lý gồm: loại bỏ các thuộc tính dư thừa như tên sinh viên, tên mơn học, tên giảng viên, lịch học, ngày tham gia tổ chức đồn thể; loại bỏ dữ liệu gây nhiễu như điểm miễn (-2), điểm chưa hồn thành mơn học (-1), điểm rút mơn học (-5), những trường hợp sinh viên đăng ký nhưng khơng tham gia học tập (null); xử lý những thuộc tính khơng đủ thơng tin như khơng gán ID người dạy, mơn học khơng tổ chức giảng dạy do cĩ dưới 15 sinh viên đăng ký; chuyển đổi định dạng từ kiểu chuỗi sang kiểu số.
Bảng 5.2: Bảng mơ tả các thuộc tính của dữ liệu
Stt Tên thuộc tính Mơ tả
Các thuộc tính dữ liệu đầu vào
1 CGPA Điểm trung bình tích lũy đã đạt đến học kỳ trước 2 CGPA-PreSemester Điểm trung bình tích lũy đã đạt ở học kỳ trước
3 CourseID ID mơn học
4 TotalCredit Tổng số tín chỉ tích lũy đến học kỳ trước 5 EnglishMark_l1 Mơn học tiếng Anh cơ bản - Cấp độ 1 6 EnglishMark_l2 Mơn học tiếng Anh cơ bản - Cấp độ 2 7 EnglishMark_l3 Mơn học tiếng Anh cơ bản - Cấp độ 3 8 EntranceMark_s1 Điểm tuyển sinh mơn 1
Stt Tên thuộc tính Mơ tả
10 EntranceMark_s3 Điểm tuyển sinh mơn 3
11 EntranceYear Năm đầu vào (ví dụ 2007, 2009…)
12 Faculty Khoa sinh viên đang học
13 FieldOfStudy Ngành học
14 Gender Giới tính
15 GPA-Semester Điểm trung bình các mơn đã học đến học kỳ trước 16 HighSchoolPlace Trường phổ thơng
17 LecturerID ID giảng viên
18 Semester Thứ tự học kỳ của sinh viên ( học kỳ 1, học kỳ 2...) 19 NumberOfCredits Số lượng tín chỉ của mơn học
20 StudentID ID sinh viên
Thuộc tính dự đốn
21 Mark Điểm mơn học
Với các thuộc tính khác nhau của dữ liệu được phân bố đa dạng, các phép chuyển đổi QTF được đề xuất (Pedregosa et al., 2012) để chuyển đổi tất cả các giá trị sang dãy giá trị nhất định giúp các giải thuật học sâu cĩ thể hội tụ được, nhằm cải thiện hiệu suất của các mơ hình dự đốn.
Hình 5.4 là một ví dụ của Khoa Phát triển Nơng thơn. Hình 5.4(a) là kết quả của trước và sau khi chuyển đổi thuộc tính CGPA-PreSemester; Hình 5.4(b) minh họa phân bố dữ liệu với các dãy dữ liệu khác nhau của một số thuộc tính trước khi chuyển đổi và phân bố dữ liệu của tất cả các thuộc tính này sau khi được chuyển đổi sử dụng QTF với thang đo từ 0 đến 1.