3.2.1 Thực nghiệm
3.2.1.1. Dữ liệu thử nghiệm
Để thử nghiệm mô hình dự đoán điểm tổng kết các môn của sinh viên khi dựa trên điểm số các môn mà sinh viên đó đã đạt được, nghiên cứu đã sử dụng tập dữ liệu là kết quả học tập được tính theo thang điểm 10 của sinh viên thuộc ngành Công nghệ thông tin của trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Tập dữ liệu thử nghiệm bao gồm kết quả học tập của một số sinh viên, cụ thể như sau: có tổng cộng 79 môn học bắt buộc và tự chọn, trong đó bao gồm 275 sinh viên đã tốt nghiệp (hoàn thành đầy đủ các môn học thuộc khung chương trình trong 8 học kỳ) và 235 sinh viên đã tham gia được 7 học kỳ trong khung chương trình đào tạo (được thống kê như ở Bảng 3.3).
Tổng số sinh viên 510
Tổng số môn học 79
Số lượng điểm đã có 18243
Số lượng điểm thiếu 22047
Bảng 3.3 Thống kê dữ liệu thử nghiệm mô hình dự báo kết quả học tập dựa trên điểm số
Hình 3.3 mô tả 9785 kết quả học tập của 275 sinh viên đã hoàn thành xong 8 học kỳ trong 4 năm học của khung chương trình đào tạo.
Hình 3.3 Biểu đồ kết quả học tập của 275 sinh viên đã hoàn thành 8 học kỳ Hình 3.4 trình bày thống kê mô tả số lượng môn học mà một sinh viên cần phải đăng ký theo học để hoàn thành được chương trình đào tạo trong 4 năm học. Cho thấy 68% sinh viên đăng ký tham gia từ 22 đến 50 môn học, và 30,9% sinh viên đăng ký tham gia từ 40 đến 45 môn học.
Hình 3.4 Biểu đồ số lượng môn học
Tương tự, hình 3.5 là mô tả phân bố điểm trung bình của sinh viên trong năm thứ 3 và thứ 4.
3.2.1.2. Kết quả thử nghiệm
Để có thể đánh giá được mức độ hiệu quả của mô hình, từ dữ liệu đã thu thập được, tôi tạo riêng các bộ dữ liệu huấn luyện, xác thực và kiểm thử dựa trên một số nhu cầu khác nhau. Các tập dữ liệu này thực chất là các ma trận được tách ra từ ma trận năng lực ứng với mỗi sinh viên sẽ được coi như là một mẫu. Phương pháp thực hiện chính là sử dụng tập huấn luyện để cho mô hình huấn luyện, rồi dự đoán điểm trên tập kiểm thử. Sau đó, dựa trên tập xác thực để so sánh điểm đã dự đoán với điểm thật. Kết quả sau khi dự đoán điểm trên tập kiểm thử là tập dự đoán. Để đơn giản, tôi tạo tập kiểm thử bằng cách sử dụng tập xác thực sau khi đã loại bỏ ngẫu nhiên một số phần tử để phục vụ việc dự đoán. Cuối cùng, tôi ký hiệu các tập huấn luyện, kiểm thử, xác thực, dự đoán lần lượt là train, test, val và pre.
Để có số liệu giúp việc đánh giá độ hiệu quả của mô hình được trực quan, tôi sử dụng đồng thời ba phương pháp: phương pháp k-fold ngẫu nhiên, phương pháp kiểm thử theo kỳ học và phương pháp tính lỗi hoặc điểm của mô hình.
Phương pháp k-fold ngẫu nhiên: trong phương pháp này, tôi sẽ tách riêng các dòng trong ma trận năng lực thành k bộ train và val tương ứng (k > 1). Từ mỗi tập val này, tôi sẽ tạo tập test bằng cách loại bỏ đi ngẫu nhiên một số lượng phần tử. Số lượng phần tử được loại bỏ xấp xỉ x% số lượng phần tử rỗng trên dòng đó (0 < x < 1). Kết quả thu được k bộ test-case khác nhau.
Phương pháp kiểm thử theo kỳ học: phương pháp này dựa trên nhu cầu thực tế của bài toán đó là sử dụng điểm tổng kết của các môn học có được từ các kỳ trước đó để dự đoán điểm tổng kết các môn học của các kỳ tiếp theo. Các môn học sẽ được sắp xếp theo từng kỳ học dựa theo đăng ký học của sinh viên đã có trong dữ liệu. Tập huấn luyện train là ma trận năng lực của các sinh viên khóa K60, tập xác thực là ma trận năng lực của các sinh viên khóa K61. Từ tập val loại bỏ đi điểm tổng kết của các môn học từ kỳ thứ 2 trở về sau, từ kỳ thứ 3 trở về sau, …, từ kỳ thứ 6 trở về sau, nhận được lần lượt 5 bộ test-case là test1, test2, …, test5. Trong phương pháp này, ta có thể lựa chọn đánh giá chỉ ngay kỳ kế tiếp hoặc tất cả các kỳ kế tiếp về sau. Từ đó đưa ra được cả đánh giá về khả năng dự đoán điểm trong tương lai gần hoặc xa của mô hình.
Phương pháp mất mát của mô hình: sau khi mô hình đã được huấn luyện và dự đoán để đưa ra được tập pre, tôi thu được ma trận mất mát loss_matrix là kết quả của việc lấy tập val trừ đi tập pre. Sau đó, tôi sử dụng trung bình sai số tuyệt đối (MAE) và trung bình bình phương sai số (RMSE) để đánh giá khả năng dự đoán của mô hình.
𝑀𝐴𝐸(𝑝𝑟𝑒, 𝑣𝑎𝑙) =∑ ∑ |𝑣𝑎𝑙𝑖𝑗−𝑝𝑟𝑒𝑖𝑗| 𝑚 𝑗=1 𝑛 𝑖=1 [𝑣𝑎𝑙𝑖𝑗≠𝑛𝑢𝑙𝑙] 𝑡 (3.1)
𝑅𝑀𝑆𝐸(𝑝𝑟𝑒, 𝑣𝑎𝑙) = √∑ ∑ (𝑣𝑎𝑙𝑖𝑗−𝑝𝑟𝑒𝑖𝑗) 2 𝑚 𝑗=1 𝑛 𝑖=1 [𝑣𝑎𝑙𝑖𝑗≠𝑛𝑢𝑙𝑙] 𝑡 (3.2)
Trong đó, t là số lượng phần tử trong tập test sẽ được dự đoán và sẽ được xác thực lại bằng các phần tử trong tập val. Nó chính là số lượng phần tử ngẫu nhiên loại bỏ khỏi tập val để tạo ra các tập test. Công thức tính t sẽ là:
𝑡 = ∑𝑛𝑖=1(∑𝑚𝑗=11[𝑣𝑎𝑙𝑖𝑗 ≠ 𝑛𝑢𝑙𝑙] − ∑𝑚𝑗=11[𝑡𝑒𝑠𝑡𝑖𝑗 ≠ 𝑛𝑢𝑙𝑙]) (3.3)
Phương pháp User-based CF:
Với mô hình User-based CF, tôi tiến hành kiểm thử trong hai trường hợp sử dụng độ đo tương tự cosine hoặc tương quan pearson với ba phương pháp kiểm thử khác nhau như đã trình bày là k-fold ngẫu nhiên, dự đoán kỳ kế tiếp và dự đoán toàn bộ kỳ kế tiếp. Kết quả thu được như sau:
Kết quả kiểm thử k-fold ngẫu nhiên:
k-fold 3 5 7 9 10
Cosine MAE 1,386 1,301 1,214 1,223 1,141
Cosine RMSE 1,959 1,888 1,832 1,873 1,918
Pearson MAE 1,383 1,297 1,210 1,219 1,136
Pearson RMSE 1,952 1,884 1,828 1,869 1,910 Bảng 3.4 Kết quả kiểm thử k-fold mô hình User-based CF
Với kết quả kiểm thử k-fold ngẫu nhiên ở hai bảng 3.4 và biểu đồ ở hình 3.6, ta thấy với mô hình User-based CF trong trường hợp sử dụng độ tương quan pearson có độ chính xác sẽ bị ảnh hưởng rất nhiều bởi tập huấn luyện và tập kiểm thử. Ngoài ra, trong trường hợp kiểm thử với k-fold bằng 9 mô hình có thể đạt độ chính xác cao nhất. Bên cạnh đó, khi sử dụng độ tương quan pearson, mô hình cho sai số dự đoán cao hơn so với khi sử dụng độ tương tự cosine.
Kết quả kiểm thử dự đoán kỳ kế tiếp:
Gọi semester là thứ tự kỳ học hiện tại, có giá trị từ 1 đến 8. Ví dụ, nếu semester bằng 3 tức là kỳ học hiện tại đang xét là học kỳ thứ ba hay chính là kỳ một năm thứ hai. Và tất cả điểm từ kỳ thứ nhất đến kỳ thứ ba sẽ được dùng làm tập kiểm thử để dự đoán điểm của kỳ kế tiếp.
semester 1 2 3 4 5
Cosine MAE 1,418 1,379 1,176 1,300 1,185
Cosine RMSE 1,871 1,862 1,686 1,836 1,881
Pearson MAE 1,556 1,488 1,322 1,455 1,279
Pearson RMSE 2,096 2,063 1,990 2,136 2,013
Bảng 3.5 Kết quả kiểm thử mô hình User-based dự đoán kỳ kế tiếp
Hình 3.7 Kết quả kiểm thử mô hình User-based dự đoán kỳ kế tiếp với sai số RMSE
Trong phương pháp kiểm thử này, nghiên cứu sử dụng cùng một tập huấn luyện và tập kiểm thử trong các lần kiểm thử khác nhau. Do đó, kết quả trong các lần kiểm thử khác nhau của mô hình User-based CF đều như nhau. Ngoài ra, khi nhìn vào bảng kết quả 3.5 và hình 3.7, ta thấy khi ở kỳ thứ 3 và dự đoán điểm số của kỳ số 4 cho kết quả có độ chính xác cao nhất.
Kết quả kiểm thử dự đoán toàn bộ kỳ kế tiếp
Tương tự như trên, trong kiểm thử này, nghiên cứu không chỉ dự đoán chỉ một kỳ kế tiếp mà sẽ dự đoán toàn bộ kỳ tiếp tiếp cho đến học kỳ cuối cùng ứng với semester bằng 8. Kết quả kiểm thử thể hiện trong bảng 3.6 và hình 3.8.
semester 1 2 3 4 5
Cosine MAE 1,418 1,313 1,244 1,253 1,185
Cosine RMSE 1,921 1,846 1,802 1,845 1,881
Pearson MAE 1,589 1,467 1,408 1,356 1,279
Pearson RMSE 2,220 2,101 2,084 2,033 2,013
Bảng 3.6 Kết quả kiểm thử mô hình User-based dự đoán toàn bộ kỳ kế tiếp
Hình 3.8 Kết quả kiểm thử mô hình User-based dự đoán toàn bộ kỳ kế tiếp với sai số RMSE
So sánh kết quả kiểm thử này với kết quả kiểm thử bằng phương pháp dự đoán kỳ kế tiếp ở phần trên, có thể thấy sai số dự đoán của phép kiểm thử toàn bộ kỳ kế tiếp cao
hơn. Lý do của sự chênh lệch này chính là vì khi dự đoán điểm ở các kỳ càng xa so với hiện tại thì sai lệch xảy ra sẽ càng lớn.
Phương pháp Item-based CF:
Tương tự như mô hình User-based CF, mô hình Item-based CF cũng được chuẩn hóa dữ liệu theo hàng trước khi tính độ tương tự.
Kết quả kiểm thử k-fold ngẫu nhiên
k-fold 3 5 7 9 10
Cosine MAE 1,346 1,351 1,348 1,342 1,333
Cosine RMSE 1,879 1,877 1,906 1,865 1,857
Pearson MAE 1,342 1,328 1,355 1,338 1,318
Pearson RMSE 1,880 1,882 1,894 1,864 1,825
Bảng 3.7 Kết quả kiểm thử k-fold mô hình Item-based CF
Hình 3.9 Kết quả kiểm thử k-fold mô hình Item-based CF với sai số RMSE Nhìn vào kết quả kiểm thử tại bảng 3.7 và hình 3.9, có thể thấy độ chính xác của mô hình Item-based CF khi sử dụng độ tương tự cosine hay độ tương quan pearson là không có quá nhiều sự khác biệt, khác với mô hình User-based CF phía trên. Với các k- fold khác nhau, độ chính xác của mô hình cũng không có sự thay đổi nhiểu. Có thể kết luận mô hình Item-based CF là mô hình tương đối ổn định.
Kết quả kiểm thử dự đoán kỳ kế tiếp
Trong trường hợp kiểm thử dự đoán kỳ kế tiếp thì kết quả thu được khi sử dụng mô hình Item-based CF lại không quá khác biệt so với kết quả tốt nhất của mô hình User-based CF. semester 1 2 3 4 5 Cosine MAE 1,375 1,380 1,163 1,278 1,141 Cosine RMSE 1,891 1,908 1,721 1,856 1,918 Pearson MAE 1,371 1,376 1,158 1,275 1,136 Pearson RMSE 1,883 1,902 1,715 1,854 1,910
Bảng 3.8 Kết quả kiểm thử mô hình Item-based dự đoán kỳ kế tiếp
Hình 3.10 Kết quả kiểm thử mô hình Item-based dự đoán kỳ kế tiếp với sai số RMSE
Kết quả kiểm thử dự đoán toàn bộ kỳ kế tiếp
semester 1 2 3 4 5
Cosine MAE 1,386 1,301 1,214 1,223 1,141
Cosine RMSE 1,959 1,888 1,832 1,873 1,918
Pearson MAE 1,383 1,297 1,210 1,219 1,136
Pearson RMSE 1,952 1,884 1,828 1,869 1,910
Hình 3.11 Kết quả kiểm thử mô hình Item-based dự đoán toàn bộ kỳ kế tiếp với sai số RMSE
Kiểm thử dự đoán toàn bộ kỳ kế tiếp với mô hình Item-based CF dù sử dụng phương pháp độ tương tự cosine hay độ tương quan pearson đều cho kết quả không quá khác biệt. Kết quả dự đoán của học kỳ 5 có sai số MAE thấp nhất, khác với sai số RMSE. Độ mất mát của học kỳ này có sự chênh lệch đáng kể so với các học kỳ khác. Do đó, khi dự đoán điểm của các môn học phổ biến và có đầy đủ thông tin thì sẽ có độ chính xác cao hơn so với các môn học khác.
Phương pháp MF:
Với mô hình MF, nghiên cứu kiểm thử với số lượng đặc trưng khác nhau lần lượt là 3, 5 và 7. Với số lượng đặc trưng càng lớn thì mô hình càng có xu hướng fitting với dữ liệu huấn luyện, tuy nhiên thời gian huấn luyện và tính toán cũng tăng lên.
Kết quả kiểm thử k-fold ngẫu nhiên
So sánh kết quả kiểm thử k-fold ngẫu nhiên của mô hình MF với mô hình User- based CF và mô hình Item-based CF, ta thấy mô hình MF có độ chính xác cao hơn khá nhiều với mọi trường hợp k-features dùng để kiểm thử. Ở các k-fold khác nhau, độ chính xác của mô hình cũng không thay đổi nhiều.
k-fold 1 2 3 4 5 3-features MAE 1,074 1,117 1,079 1,078 1,103 3-features RMSE 1,668 1,701 1,654 1,663 1,677 5-features MAE 1,120 1,082 1,085 1,120 1,093 5-features RMSE 1,730 1,695 1,660 1,686 1,672 7-features MAE 1,139 1,091 1,064 1,101 1,08 7-features RMSE 1,744 1,673 1,649 1,673 1,682 Bảng 3.10 Kết quả kiểm thử k-fold mô hình MF
Hình 3.12 Kết quả kiểm thử k-fold mô hình MF với sai số RMSE
Kết quả kiểm thử dự đoán kỳ kế tiếp
Kết quả phép kiểm thử dự đoán kỳ kế tiếp của mô hình MF có sự chênh lệch khá lớn so với phép kiểm thử k-fold do có sự thiếu thông tin về điểm của các môn học cùng học kỳ và các học kỳ tiếp theo. MF là một mô hình kém hiệu quả trong trường hợp cold start nên khi loại bỏ một lượng lớn thông tin đặc biệt là các thông tin quan hệ mật thiết với nhau khiến mô hình trở nên kém chính xác. Tuy nhiên, khi nhìn vào kết quả dự đoán của học kỳ thứ 3, ta thấy dự đoán này tương đối chính xác và chỉ kém trường hợp tốt nhất của mô hình User-based CF trong học kỳ 2, 3, 4. Ngoài ra, dự đoán điểm của học kỳ thứ nhất và học kỳ thứ 5, mô hình có sai số dự đoán khá cao. Điều này là do thiếu thông tin về sinh viên ở học kỳ thứ nhất và do lượng thông tin thưa thớt của các môn
học tự chọn từ học kỳ thứ 6 trở đi. Các môn học tự chọn thường có số lượng sinh viên đăng ký theo học ít và không cố định, khác với các môn cơ bản hay chuyên ngành bắt buộc ở các học kỳ trước dẫn đến các dự đoán sai lệch nghiêm trọng vì thiếu thông tin điểm. semester 1 2 3 4 5 3-features MAE 1,441 1,402 1,373 1,309 1,538 3-features RMSE 1,908 1,890 1,820 1,846 2,051 5-features MAE 1,464 1,393 1,329 1,314 1,476 5-features RMSE 1,943 1,892 1,830 1,861 2,065 7-features MAE 1,477 1,421 1,292 1,34 1,459 7-features RMSE 1,962 1,928 1,767 1,917 2,023 Bảng 3.11 Kết quả kiểm thử mô hình MF dự đoán kỳ kế tiếp
Hình 3.13 Kết quả kiểm thử mô hình MF dự đoán kỳ kế tiếp với sai số RMSE
Kết quả dự đoán toàn bộ kỳ kế tiếp
Kết quả kiểm thử với mô hình MF tương tự kết quả kiểm thử với mô hình User- based CF khi dự đoán tất cả các học kỳ còn lại. Việc thiếu thông tin về điểm số của các kỳ tiếp theo dẫn đến kết quả khi sử dụng mô hình User-base CF có độ chính xác nhỉnh hơn so với mô hình MF.
semester 1 2 3 4 5 3-features MAE 1,481 1,427 1,418 1,390 1,538 3-features RMSE 1,975 1,926 1,912 1,917 2,051 5-features MAE 1,484 1,404 1,384 1,366 1,476 5-features RMSE 1,999 1,924 1,915 1,925 2,065 7-features MAE 1,495 1,417 1,384 1,378 1,459 7-features RMSE 2,029 1,952 1,912 1,956 2,023 Bảng 3.12 Kết quả kiểm thử mô hình MF dự đoán toàn bộ kỳ kế tiếp
Hình 3.14 Kết quả kiểm thử mô hình MF dự đoán toàn bộ kỳ kế tiếp với sai số RMSE
3.2.2 Đánh giá
Khi dự đoán kết quả học tập của sinh viên, nghiên cứu đã tiến hành chia các nhóm sinh viên theo cùng ngành học với những sinh viên khóa trên, là những người đã từng tham gia các khóa học cần dự đoán điểm ở những học kỳ trước đó, tương tự cách tiếp cận chia nhóm trong nghiên cứu của Elbadrawy [5]. Ngoài ra nghiên cứu cũng thực hiện phân nhóm các sinh viên theo năm học để dự đoán kết quả học tập cho các học kỳ tiếp theo.
Khi thực nghiệm dự đoán điểm môn học ngẫu nhiên, khi sử dụng phương pháp