Mơ tả kiến trúc MLP được đề xuất

Một phần của tài liệu Luận án xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (building models for searching and recommending learning resources) (Trang 107 - 109)

Để giảm các vấn đề về quá khớp (overfitting), kỹ thuật dropout với tỷ lệ là 0,015 được sử dụng. Ngồi ra, kỹ thuật early stopping cũng được xem xét thực hiện, nếu trong việc học khơng cải thiện được kết quả trong 5 epochs liên tục thì quá trình học sẽ dừng lại. Ngược lại, việc học tiếp tục tới 500 epochs. Mạng được triển khai với hàm tối ưu Adam, sử dụng batch size là 255 và tốc độ học mặc định là 0,001.

5.4.2. Mơ tả dữ liệu

Để đánh giá mơ hình đề xuất, dữ liệu thực tế từ hệ thống quản lý sinh viên của Trường Đại học Cần Thơ được thu thập. Dữ liệu thu thập liên quan đến sinh viên, mơn học, điểm và các thơng tin khác từ năm 2007 đến 2019 với hơn 3,8 triệu mẫu tin, mỗi mẫu là kết quả của một sinh viên đối với một mơn học nào đĩ. Các thuộc tính của tập dữ liệu tương tự như Bảng 5.2. Dữ liệu được chia theo thời gian, tập train và tập test cĩ tỷ lệ lần lượt là 2/3 và 1/3.

Bảng 5.5: Phân bố nhĩm điểm của tập dữ liệu

Nhĩm điểm #Train #Test %Nhĩm điểm

Very good (4,0) 555.753 273.729 21,66

Good (3,5) 482.917 237.855 18,82

Fair (2,5-3,0) 901.570 444.057 35,14

Poor (0-2,0) 625.109 307.889 24,37

Tổng cộng 2.565.349 1.263.530 100,00

Các thuộc tính đầu vào cho mơ hình học tập được mơ tả trong Bảng 5.2. Dữ liệu thu thập cũng được qua tiền xử lý trước khi chạy mơ hình dự đốn, bao gồm các cơng việc như sau: loại bỏ các thuộc tính dư như tên sinh viên, tên mơn học, tên giảng viên; loại bỏ các mẫu tin thừa hoặc nhiễu như mơn sinh viên đăng ký học nhưng chưa được kiểm tra, các mơn học miễn; loại bỏ các mơn học khơng đủ số lượng đăng ký; chuyển đổi định dạng từ giá trị văn bản thành giá trị số.

5.4.3. Kết quả thực nghiệm

5.4.3.1. Các phương pháp khác của hệ thống gợi ý và độ đo đánh giá

Để so sánh, các phương pháp khác của hệ thống gợi ý (gọi là baselines) như User Average (dự đốn dựa trên kết quả trung bình của từng sinh viên), Item Average (dự đốn dựa trên kết quả trung bình của từng mơn học) và với các phương pháp khác của lọc cộng tác từ nghiên cứu của các nhĩm tác giả khác (Thai-Nghe et al., 2011; Iqbal et

al., 2017) khi cho rằng kỹ thuật nổi bật của hệ thống gợi ý là phân rã ma trận (Matrix

Factorization - MF) (Khanal et al., 2020). Đây là kỹ thuật được áp dụng khá thành cơng trong dự đốn kết quả học tập của sinh viên. Các phương pháp này trình bày ở phần 2.5.3 về một số kỹ thuật trong hệ thống gợi ý.

Hai độ đo phổ biến là RMSE (Root Mean Square Error) và MAE (Mean Absolute Error) được sử dụng để đánh giá các mơ hình. Các độ đo được tính trung bình trên 10 lần chạy. Các độ đo MAE và RMSE được biểu diễn như sau:

RMSE =�𝑛𝑛 �1 (𝑦𝑦𝑖𝑖− 𝑦𝑦�𝑖𝑖)2 𝑐𝑐 𝑖𝑖=1 5.2 MAE =1n�|𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖| n i=1 5.3 Trong đĩ, yi là điểm thực tế ở mẫu thứ i, 𝑦𝑦�𝑖𝑖 là điểm số dự đốn tương ứng; n là số mẫu của dữ liệu dùng để đánh giá.

5.4.3.2. Kết quả thực nghiệm

Trong nghiên cứu này, các thơng số kỹ thuật gồm server 72 core và 320 GB RAM được cài đặt hệ điều hành Ubuntu 20.4; ngơn ngữ lập trình Python 3.7 cùng với các thư viện của deep learning hỗ trợ các tiến trình triển khai các thực nghiệm. Ngồi ra, thư viện hệ thống gợi ý mã nguồn mở MyMediaLite được sử dụng, kết hợp với nền tảng Mono chạy trên Ubuntu để kiểm chứng mơ hình đề xuất và thực nghiệm trên các phương pháp khác của hệ thống gợi ý.

Kết quả thực nghiệm với hai độ đo RMSE và MAE được trình bày ở Hình 5.10. GroupMLP trình bày việc sử dụng bốn mơ hình khác nhau cho bốn nhĩm theo năng lực học tập của sinh viên. MLP trình bày việc sử dụng một mơ hình để dự đốn kết quả học tập của tất cả sinh viên. Rõ ràng việc sử dụng mơ hình dự đốn theo các nhĩm năng lực học tập của sinh viên cĩ kết quả được cải thiện đáng kể. Cả hai độ lỗi MAE và RMSE cải thiện hơn 75%.

Một phần của tài liệu Luận án xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (building models for searching and recommending learning resources) (Trang 107 - 109)

Tải bản đầy đủ (PDF)

(148 trang)