Framework của mơ hình MF

Thay vì sử dụng mạng nơ-ron đa tầng MLP như trong mơ hình DMF thì ở mơ hình MF chuẩn chỉ thực hiện một phép tính tích vơ hướng (Dot product) giữa hai véc-tơ đặc trưng người dùng và tài nguyên học tập từ tầng nhúng.

Trong mơ hình DMF, tầng nhúng (embedding layer) làm nhiệm vụ ánh xạ véc-tơ thưa cĩ số chiều lớn vào một khơng gian véc-tơ cĩ số chiều thấp hơn đồng thời véc-tơ dày đặc hơn và bảo tồn các mối quan hệ ngữ nghĩa tồn tại trong dữ liệu ban đầu. Kết quả của q trình nhúng là véc-tơ đặc tính ẩn (latent factor vector) mơ tả về người dùng hoặc tài nguyên học tập. Dữ liệu gốc được tầng nhúng ánh xạ vào khơng gian véc-tơ tiềm ẩn thu được các véc-tơ dày đặc hơn, chúng ta cĩ thể sử dụng tích vơ hướng của hai véc-tơ này để tính tốn giá trị xếp hạng của người dùng như mơ hình MF hoặc các véc- tơ tiềm ẩn được nối lại với nhau để tạo thành véc-tơ đặc tính mới phục vụ cho tính tốn tiếp theo bằng kỹ thuật MLP như mơ hình DMF.

6.4. Các phương pháp trong hệ thống gợi ý

Nghiên cứu này tập trung vào vấn đề dự đốn xếp hạng trong hệ thống gợi ý. Cĩ nhiều kỹ thuật trong dự đốn xếp hạng, tuy nhiên phần này đề xuất các phương pháp phổ biến của hệ thống gợi ý để làm cơ sở (baselines) so sánh với mơ hình DMF được trình bày chi tiết ở phần 2.5.3 về một số kỹ thuật trong hệ thống gợi ý.

6.5. Mơ tả dữ liệu thực nghiệm

Mơ hình được kiểm chứng dựa trên hai nhĩm dữ liệu thực nghiệm, gồm các tập dữ liệu về tài nguyên học tập và các tập dữ liệu về kết quả học tập của sinh viên của một trường đại học. Các mơ hình được đánh giá, so sánh với các kỹ thuật khác của hệ thống gợi ý.

Các tập dữ liệu về tài nguyên học tập: gồm 5 tập dữ liệu mơ tả việc đánh giá (ratings) tài nguyên học tập (item) của người dùng (user). Số lượng người dùng, tài nguyên học tập và xếp hạng của các tập dữ liệu này được mơ tả trong Bảng 6.1.

Bảng 6.1: Mơ tả 5 tập dữ liệu đầy đủ

Stt Dataset #user #item #ratings

1 Ratings 53.424 10.000 981.756

2 LibraryThings 70.618 385.251 1.387.125

3 BX-Book-ratings 105.283 340.556 1.149.780

4 Related-Article Recommendation 2.663.825 7.224.279 48.879.167

5 Ratings-Books 8.026.324 2.330.066 22.507.155

Các tập dữ liệu này được mơ tả vắn tắt như sau: Tập dữ liệu Ratings (Spachtholz, 2017) chứa tất cả xếp hạng của người dùng về sách/book (tổng số 980.000 ratings, cho 10.000 books, từ 53.424 users). Tập dữ liệu này giới thiệu và mơ tả lọc cộng tác. Tập dữ liệu BX-Book-ratings (Bhatia, 2020) chứa các xếp hạng sách, gồm 105.283 users,

với 1.149.780 ratings (tiềm ẩn và tường minh) của 340.556 sách. Tập dữ liệu Ratings- Books (McAuley, 2018) chứa xếp hạng sản phẩm sách của Amazon, được cập nhật vào năm 2018 bao gồm user, item, ratings và timestamp. Tập dữ liệu Related-Article Recommendation (Joeran et al., 2018) dựa trên dữ liệu từ hệ thống gợi ý trong thư viện điện tử và phần mềm quản lý tài liệu tham khảo. Tập dữ liệu lấy từ sách, chứa 2.663.825 users, 7.224.279 books và 48.879.167 ratings. Tập dữ liệu LibraryThings (McAuley, 2019) bao gồm xếp hạng cũng như các mối quan hệ xã hội giữa những người dùng, bao gồm 70.618 users, 1.387.125 ratings, 385.251 books.

Các tập dữ liệu này khá thưa (sparse), tức là người dùng hoặc tài nguyên học tập cĩ thể chỉ cĩ một vài xếp hạng. Vấn đề này là thách thức cho phương pháp học máy. Để so sánh, nghiên cứu này đã trình bày phiên bản khác của các tập dữ liệu này bằng cách giữ lại những người dùng/tài nguyên học tập cĩ ít nhất 5 ratings. Phiên bản mới của các tập dữ liệu này được trình bày trong Bảng 6.2.

Bảng 6.2: Mơ tả 5 tập dữ liệu cĩ ít nhất 5 ratings

Stt Dataset #user #item #5ratings

1 Ratings 32.492 10.000 916.880

2 LibraryThings 25.930 41.900 802.957

3 BX-Book-ratings 19.109 34.751 573.305

4 Related-Article Recommendation 2.368.923 2.225.631 37.145.643

5 Ratings-Books 622.558 596.401 9.389.719

Các tập dữ liệu về kết quả học tập của sinh viên: Gồm 3 tập dữ liệu về kết quả

học tập của sinh viên được sử dụng ở mục 5.5 về mơ hình dự đốn kết quả học tập theo từng sinh viên. Tập dữ liệu thứ nhất (Student Performance) là kết quả học tập của sinh viên của một số đơn vị đào tạo của một trường đại học. Trong khi đĩ, tập dữ liệu thứ hai là kết quả học tập của sinh viên được giữ lại ít nhất 10 mẫu tin (10 mơn học) cho mỗi sinh viên. Tương tự, tập dữ liệu thứ ba lọc giữ lại ít nhất 20 mẫu tin cho mỗi sinh viên. Các tập dữ liệu được mơ tả như Bảng 6.3, trong đĩ user là sinh viên, item là mơn học và ratings là điểm của mơn học mà sinh viên đạt được.

Bảng 6.3: Mơ tả các tập dữ liệu kết quả học tập của sinh viên

Stt Dataset #user #item #ratings Mơ tả

1 Student Performance 94.087 4.836 1.046.515 Dữ liệu gốc được thu thập

2 Student Performance 10 30.820 3.516 472.003 Giữ lại ít nhất 10 record/sinh viên 3 Student Performance 20 1.182 485 16.590 Giữ lại ít nhất 20

Tập dữ liệu Student Performance 10 và Student Performance 20 cĩ thể được xem là các tập dữ liệu khắc phục tình trạng thưa dữ liệu; hai tập dữ liệu này cũng được sử dụng cho nghiên cứu xây dựng mơ hình dự đốn kết quả học tập được trình bày ở chương trước.

6.6. Kết quả thực nghiệm

Nhiên cứu này triển khai thực nghiệm đánh giá mơ hình DMF trên mơi trường Google Colab được cài sẵn các thư viện của deep learning; ngơn ngữ sử dụng là Python 3.7. Google Colab được liên kết với Google Drive để đọc và lưu dữ liệu. Ngồi ra, thư viện hệ thống gợi ý mã nguồn mở MyMediaLite với nền tảng Mono chạy trên hệ điều hành Ubuntu cũng được sử dụng để kiểm thử với các phương pháp khác của hệ thống gợi ý. Độ đo đánh giá mơ hình là độ lỗi RMSE.

6.6.1. Kết quả thực nghiệm trên các tập dữ liệu về tài nguyên học tập

Các kết quả thử nghiệm được trình bày bao gồm mối quan hệ giữa RMSE và số lượng nơ-ron được trình bày trong Hình 6.4, mối quan hệ giữa số nhân tố tiềm ẩn (thuộc tính) và độ lỗi được thể hiện trong Hình 6.5, trong khi đĩ hiệu suất của giai đoạn huấn luyện và giai đoạn kiểm tra trong quá trình học được trình bày ở Hình 6.6.

Quan sát hai biểu đồ ở Hình 6.4 (biểu diễn cho tập dữ liệu dataset 1 và dataset 3) cho thấy các mơ hình khá tương đồng. Khi số lượng nơ-ron tăng thì hiệu suất của mơ hình đạt đến giá trị tốt nhất (độ lỗi RMSE nhỏ nhất), sau đĩ tiếp tục tăng số nơ-ron thì độ lỗi bắt đầu tăng dần và cĩ xu hướng bão hịa. Đối với tập dữ liệu dataset 1, độ lỗi RMSE thấp nhất đạt được với khoảng 100 nơ-ron. Kết quả này cũng tương tự trên tập dữ liệu dataset 3.

Hệ thống gợi ý tài nguyên học tập

Một số kỹ thuật phân loại văn bản