Mơ hình dự đốn kết quả học tập theo nhĩm năng lực- 123docz.net

CHƯƠNG 5 MƠ HÌNH DỰ ĐỐN KẾT QUẢ HỌC TẬP

5.4. Mơ hình dự đốn kết quả học tập theo nhĩm năng lực học tập

Phần trước chúng tơi đã đề cập mơ hình dự đốn kết quả học tập trên tồn bộ dữ liệu sinh viên, bao gồm dữ liệu tách theo từng đơn vị đào tạo và dữ liệu của cả trường

trong trường đại học đa ngành. Nghiên cứu này đề xuất cách tiếp cận xây dựng các mơ hình dự đốn kết quả học tập theo từng nhĩm năng lực học tập của sinh viên.

Trong cách tiếp cận này, một kỹ thuật học sâu khác với mạng nơ-ron truyền thẳng đa tầng (Multilayer Perceptron - MLP) được đề xuất sử dụng để xây dựng mơ hình dự đốn kết quả học tập sinh viên trong các học kỳ tiếp theo dựa trên kết quả đạt được của các học kỳ trước đĩ. Chúng tơi đề xuất kỹ thuật học sâu này lý do MLP thích hợp cho các vấn đề dự đốn phân loại. Ngồi ra, kiến trúc MLP khá phù hợp với dữ liệu dạng bảng (tabular format), chẳng hạn tập tin dạng CSV như tập dữ liệu cho mơ hình này (Brownlee, 2018).

5.4.1. Mơ hình đề xuất

Một cách tiếp cận của mơ hình dự đốn được đề xuất như sơ đồ tổng quát ở Hình 5.8. Đầu tiên, các tập dữ liệu thực tại hệ thống quản lý sinh viên của một trường đại học được thu thập, sau đĩ dữ liệu được tiền xử lý để loại bỏ nhiễu cũng như các thuộc tính dư thừa. Cách tiếp cận truyền thống thường sử dụng tồn bộ tập dữ liệu để xây dựng mơ hình dự đốn (như mơ tả ở dưới cùng của Hình 5.8) nhằm dự đốn cho tất cả các sinh viên (ký hiệu là MLP).

Tuy nhiên, cần cĩ cách tiếp cận mới để dự đốn theo từng nhĩm học lực của sinh viên, tránh việc sử dụng dữ liệu một cách "cào bằng" dẫn đến các trường hợp sử dụng dữ liệu của sinh viên cĩ thành tích tốt dự đốn cho sinh viên cĩ thành tích kém và ngược lại. Nghiên cứu này đề xuất sử dụng bốn mơ hình dự đốn cho bốn nhĩm sinh viên cĩ học lực tương tự dựa trên điểm số mà sinh viên đạt được (như mơ tả ở phần trên của Hình 5.8).

Kiến trúc MLP được mơ tả như Hình 5.9. Các thuộc tính đầu vào được mơ tả như Bảng 5.2. Kiến trúc MLP gồm tầng input, 5 tầng ẩn và tầng output. Tầng input gồm các nơ-ron chứa các thuộc tính dữ liệu. Bốn tầng ẩn đầu tiên chứa 256 nơ-ron; tầng ẩn thứ năm chứa 8 nơ-ron biểu diễn 8 mức điểm của điểm hệ 4. Tầng output cĩ 1 nơ-ron là điểm cần dự đốn cĩ giá trị từ 0 đến 4.

Hình 5.9: Mơ tả kiến trúc MLP được đề xuất

Để giảm các vấn đề về quá khớp (overfitting), kỹ thuật dropout với tỷ lệ là 0,015 được sử dụng. Ngồi ra, kỹ thuật early stopping cũng được xem xét thực hiện, nếu trong việc học khơng cải thiện được kết quả trong 5 epochs liên tục thì quá trình học sẽ dừng lại. Ngược lại, việc học tiếp tục tới 500 epochs. Mạng được triển khai với hàm tối ưu Adam, sử dụng batch size là 255 và tốc độ học mặc định là 0,001.

5.4.2. Mơ tả dữ liệu

Để đánh giá mơ hình đề xuất, dữ liệu thực tế từ hệ thống quản lý sinh viên của Trường Đại học Cần Thơ được thu thập. Dữ liệu thu thập liên quan đến sinh viên, mơn học, điểm và các thơng tin khác từ năm 2007 đến 2019 với hơn 3,8 triệu mẫu tin, mỗi mẫu là kết quả của một sinh viên đối với một mơn học nào đĩ. Các thuộc tính của tập dữ liệu tương tự như Bảng 5.2. Dữ liệu được chia theo thời gian, tập train và tập test cĩ tỷ lệ lần lượt là 2/3 và 1/3.

Bảng 5.5: Phân bố nhĩm điểm của tập dữ liệu

Nhĩm điểm #Train #Test %Nhĩm điểm

Very good (4,0) 555.753 273.729 21,66

Good (3,5) 482.917 237.855 18,82

Fair (2,5-3,0) 901.570 444.057 35,14

Poor (0-2,0) 625.109 307.889 24,37

Tổng cộng 2.565.349 1.263.530 100,00

Các thuộc tính đầu vào cho mơ hình học tập được mơ tả trong Bảng 5.2. Dữ liệu thu thập cũng được qua tiền xử lý trước khi chạy mơ hình dự đốn, bao gồm các cơng việc như sau: loại bỏ các thuộc tính dư như tên sinh viên, tên mơn học, tên giảng viên; loại bỏ các mẫu tin thừa hoặc nhiễu như mơn sinh viên đăng ký học nhưng chưa được kiểm tra, các mơn học miễn; loại bỏ các mơn học khơng đủ số lượng đăng ký; chuyển đổi định dạng từ giá trị văn bản thành giá trị số.

5.4.3. Kết quả thực nghiệm

5.4.3.1. Các phương pháp khác của hệ thống gợi ý và độ đo đánh giá

Để so sánh, các phương pháp khác của hệ thống gợi ý (gọi là baselines) như User Average (dự đốn dựa trên kết quả trung bình của từng sinh viên), Item Average (dự đốn dựa trên kết quả trung bình của từng mơn học) và với các phương pháp khác của lọc cộng tác từ nghiên cứu của các nhĩm tác giả khác (Thai-Nghe et al., 2011; Iqbal et

al., 2017) khi cho rằng kỹ thuật nổi bật của hệ thống gợi ý là phân rã ma trận (Matrix

Factorization - MF) (Khanal et al., 2020). Đây là kỹ thuật được áp dụng khá thành cơng trong dự đốn kết quả học tập của sinh viên. Các phương pháp này trình bày ở phần 2.5.3 về một số kỹ thuật trong hệ thống gợi ý.

Hai độ đo phổ biến là RMSE (Root Mean Square Error) và MAE (Mean Absolute Error) được sử dụng để đánh giá các mơ hình. Các độ đo được tính trung bình trên 10 lần chạy. Các độ đo MAE và RMSE được biểu diễn như sau:

RMSE =�𝑛𝑛 �1 (𝑦𝑦𝑖𝑖− 𝑦𝑦�𝑖𝑖)2 𝑐𝑐 𝑖𝑖=1 5.2 MAE =1n�|𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖| n i=1 5.3 Trong đĩ, yi là điểm thực tế ở mẫu thứ i, 𝑦𝑦�𝑖𝑖 là điểm số dự đốn tương ứng; n là số mẫu của dữ liệu dùng để đánh giá.

5.4.3.2. Kết quả thực nghiệm

Trong nghiên cứu này, các thơng số kỹ thuật gồm server 72 core và 320 GB RAM được cài đặt hệ điều hành Ubuntu 20.4; ngơn ngữ lập trình Python 3.7 cùng với các thư viện của deep learning hỗ trợ các tiến trình triển khai các thực nghiệm. Ngồi ra, thư viện hệ thống gợi ý mã nguồn mở MyMediaLite được sử dụng, kết hợp với nền tảng Mono chạy trên Ubuntu để kiểm chứng mơ hình đề xuất và thực nghiệm trên các phương pháp khác của hệ thống gợi ý.

Kết quả thực nghiệm với hai độ đo RMSE và MAE được trình bày ở Hình 5.10. GroupMLP trình bày việc sử dụng bốn mơ hình khác nhau cho bốn nhĩm theo năng lực học tập của sinh viên. MLP trình bày việc sử dụng một mơ hình để dự đốn kết quả học tập của tất cả sinh viên. Rõ ràng việc sử dụng mơ hình dự đốn theo các nhĩm năng lực học tập của sinh viên cĩ kết quả được cải thiện đáng kể. Cả hai độ lỗi MAE và RMSE cải thiện hơn 75%.

Hình 5.10: So sánh RMSE và MAE giữa GroupMLP và MLP

Ngồi ra, mơ hình GroupMLP cũng được so sánh với các phương pháp khác của hệ thống gợi ý. Kết quả trình bày ở Hình 5.11 cho thấy GroupMLP hoạt động tốt hơn so với các phương pháp khác của hệ thống gợi ý (baselines) với hai độ đo MAE và RMSE cho kết quả cải thiện hơn 70%.

Như vậy, chúng ta thấy mơ hình dự đốn kết quả học tập theo nhĩm năng lực học tập cĩ sự cải thiện kết quả so với mơ hình dự đốn kết quả học tập dựa trên tồn bộ dữ liệu sinh viên do khắc phục được tình trạng "cào bằng", thay vì dùng một mơ hình dự đốn cho tồn bộ sinh viên thì chúng ta chia ra bốn mơ hình, mỗi mơ hình dự đốn cho những sinh viên cĩ năng lực học tập tương đồng nhau.

Hình 5.11: Kết quả độ đo RMSE và MAE giữa GroupMLP và các baselines

Ngồi sử dụng kỹ thuật MLP dự đốn kết quả học tập của các mơn học tiếp theo dựa vào điểm các mơn học trước đĩ với dữ liệu được chia theo từng nhĩm năng lực học tập của sinh viên, một mơ hình đốn khác dựa trên điểm tích lũy (GPA) để chia thành

bốn mơ hình khác nhau (bao gồm xuất sắc/Excellent, giỏi/Very good, khá/Good và trung bình/Fairly) sử dụng giải thuật rừng ngẫu nhiên (Random Forest - RF) cũng được đề xuất. Với cách tiếp cận này, sau khi huấn luyện và thu được bốn mơ hình, để dự đốn điểm của sinh viên cho một mơn học ở một học kỳ cụ thể, điểm trung bình các mơn học mà sinh viên đạt được trong các học kỳ trước được tính tốn, sau đĩ áp dụng mơ hình tương ứng với mức điểm của sinh viên. Kết quả cho thấy mơ hình đề xuất cho kết qua dự đốn khá tốt theo từng nhĩm năng lực học tập. Nội dung này được trình bày chi tiết ở Phụ lục 2 của luận án.

Tuy nhiên, đối với các mơ hình dự đốn kết quả học tập trên tồn bộ dữ liệu sinh viên và mơ hình dự đốn dựa trên từng nhĩm năng lực học tập của sinh viên thì việc chia dữ liệu huấn luyện và kiểm tra theo thời gian, các kỹ thuật của hệ thống gợi ý cĩ thể gặp phải “vấn đề khởi đầu lạnh” (cold-start problem), tức là sinh viên và mơn học mới cĩ thể xuất hiện trong tập kiểm tra nhưng chưa được huấn luyện trước đĩ. Vì vậy, để khắc phục vấn đề này, luận án đề xuất xây dựng mơ hình dự đốn kết quả học tập theo từng sinh viên, sẽ trình bày ở phần tiếp theo.

Mơ hình dự đốn kết quả học tập theo nhĩm năng lực học tập

Hệ thống gợi ý tài nguyên học tập

Một số kỹ thuật phân loại văn bản