Ngồi sử dụng kỹ thuật MLP dự đốn kết quả học tập của các mơn học tiếp theo dựa vào điểm các mơn học trước đĩ với dữ liệu được chia theo từng nhĩm năng lực học tập của sinh viên, một mơ hình đốn khác dựa trên điểm tích lũy (GPA) để chia thành
bốn mơ hình khác nhau (bao gồm xuất sắc/Excellent, giỏi/Very good, khá/Good và trung bình/Fairly) sử dụng giải thuật rừng ngẫu nhiên (Random Forest - RF) cũng được đề xuất. Với cách tiếp cận này, sau khi huấn luyện và thu được bốn mơ hình, để dự đốn điểm của sinh viên cho một mơn học ở một học kỳ cụ thể, điểm trung bình các mơn học mà sinh viên đạt được trong các học kỳ trước được tính tốn, sau đĩ áp dụng mơ hình tương ứng với mức điểm của sinh viên. Kết quả cho thấy mơ hình đề xuất cho kết qua dự đốn khá tốt theo từng nhĩm năng lực học tập. Nội dung này được trình bày chi tiết ở Phụ lục 2 của luận án.
Tuy nhiên, đối với các mơ hình dự đốn kết quả học tập trên tồn bộ dữ liệu sinh viên và mơ hình dự đốn dựa trên từng nhĩm năng lực học tập của sinh viên thì việc chia dữ liệu huấn luyện và kiểm tra theo thời gian, các kỹ thuật của hệ thống gợi ý cĩ thể gặp phải “vấn đề khởi đầu lạnh” (cold-start problem), tức là sinh viên và mơn học mới cĩ thể xuất hiện trong tập kiểm tra nhưng chưa được huấn luyện trước đĩ. Vì vậy, để khắc phục vấn đề này, luận án đề xuất xây dựng mơ hình dự đốn kết quả học tập theo từng sinh viên, sẽ trình bày ở phần tiếp theo.
5.5. Mơ hình dự đốn kết quả học tập theo từng sinh viên
Các phần trước đã đề cập mơ hình dự đốn kết quả học tập trên tồn bộ dữ liệu sinh viên và mơ hình dự đốn dựa trên từng nhĩm năng lực học tập của sinh viên. Trong nghiên cứu này, cách tiếp cận xây dựng mơ hình dự đốn kết quả học tập theo từng sinh viên sử dụng các kỹ thuật học sâu khác với bộ nhớ ngắn dài hạn LSTM (Long Short Term Memory) và mạng nơ-ron truyền thẳng MLP được sử dụng. Kỹ thuật học sâu LSTM được đề xuất do đã cĩ nhiều thành cơng khi xây dựng mơ hình dự đốn với dữ liệu ở dạng tuần tự theo thời gian (sequence hay time series) từ kỹ thuật này (Brownlee, 2018). Đối với mạng MLP, ngồi việc so sánh với mạng LSTM, nghiên cứu này muốn cĩ cái nhìn tổng thể về việc sử dụng mạng MLP giữa mơ hình dự đốn chia theo năng lực học tập và dự đốn chia theo từng sinh viên riêng biệt.
5.5.1. Mơ tả dữ liệu thực nghiệm và tiền xử lý dữ liệu
Để thực nghiệm, tập dữ liệu về kết quả học tập của sinh viên của một số đơn vị đào tạo (chủ yếu khối khoa học kỹ thuật) của một trường đại học được sử dụng. Dữ liệu kết quả học tập được lấy từ năm 2017 đến năm 2019 với hơn 1 triệu mẫu tin. Nghiên cứu này sử dụng 4 thuộc tính quan trọng của tập dữ liệu làm dữ liệu đầu vào cho bộ nhớ ngắn dài hạn LSTM gồm điểm trung bình tích lũy đạt được đến học kỳ trước, điểm trung bình tích lũy đạt được ở học kỳ trước, tổng số tín chỉ tích lũy đến học kỳ trước và điểm mơn học.
Dữ liệu được tiền xử lý trước khi thực nghiệm kiểm chứng mơ hình. Cụ thể gồm các bước như sau: (1) sắp xếp dữ liệu theo từng sinh viên và theo thứ tự thời gian từ học kỳ đầu đến học kỳ cuối; (2) loại bỏ các thuộc tính dữ liệu khơng ảnh hưởng tích cực cho
mơ hình, giữ lại các thuộc tính cần thiết; (3) loại bỏ dữ liệu gây nhiễu như điểm được miễn (-2), điểm chưa hồn thành mơn học (-1), điểm rút mơn học (-5), những trường hợp sinh viên đăng ký nhưng khơng tham gia học tập (null), xử lý những thuộc tính khơng đủ thơng tin như khơng gán ID người dạy, mơn học khơng tổ chức giảng dạy do cĩ dưới 15 sinh viên đăng ký...
Để đa dạng hĩa nguồn dữ liệu, tập dữ liệu gốc với hơn 1 triệu mẫu tin là kết quả học tập từng mơn học của sinh viên được chia thành 2 tập dữ liệu mới lần lượt giữ lại những sinh viên cĩ ít nhất 10 mẫu tin và 20 mẫu tin kết quả học tập. Các bảng dữ liệu sau khi tiền xử lý thu được số mẫu tin như Bảng 5.6.
Bảng 5.6: Bảng mơ tả các tập dữ liệu sau khi lọc lấy 10 và 20 mẫu tin trở lên
Dataset # Mẫu tin Mơ tả
Student Performance 10 Student Performance 20
515.610 41.367
Tập dữ liệu kết quả học tập, lọc giữ lại mỗi sinh viên cĩ 10 mẫu tin trở lên Tập dữ liệu kết quả học tập, lọc giữ lại mỗi sinh viên cĩ 20 mẫu tin trở lên
5.5.2. Mơ hình đề xuất và chuẩn hĩa dữ liệu
Trong nghiên cứu này, các mơ hình dự đốn kết quả học tập của từng sinh viên sử dụng bộ nhớ ngắn dài hạn LSTM và mạng nơ-ron truyền thẳng đa tầng MLP được đề xuất. Cụ thể, sử dụng kết quả học tập của sinh viên ở các mơn học trước để dự đốn cho các mơn học kế tiếp. Sau khi dữ liệu được sắp xếp kết quả học tập theo trình tự thời gian của từng sinh viên, tiến hành nhĩm các sinh viên riêng. Với đầu vào mỗi bước thời gian (ở bước thời gian trước), dự đốn cho đầu ra là điểm mơn học tiếp theo (bước thời gian hiện tại). Để thực hiện mơ hình dự đốn sử dụng mạng LSTM, cần chuẩn hĩa dữ liệu đầu vào. Quá trình chuẩn hĩa dữ liệu đầu vào gồm bước sau:
Bước 1: Sắp xếp sinh viên theo StudentID, đọc dữ liệu mỗi sinh viên vào bộ nhớ, trong đĩ điểm là giá trị cần dự đốn (như Hình 5.12).