Dữ liệu thực nghiệm - Xây dựng mô hình tìm kiếm và- 123docz.net

Chúng tơi kiểm chứng mơ hình đề xuất dựa trên hai nhĩm dữ liệu thực nghiệm, gồm các tập dữ liệu về tài nguyên học tập và các tập dữ liệu về kết quả học tập của sinh viên ở một trường đại học.

Các tập dữ liệu về tài nguyên học tập: Gồm 5 tập dữ liệu

mơ tả việc đánh giá (ratings) tài nguyên học tập (item) của người dùng (user). Số lượng người dùng, tài nguyên học tập và xếp hạng của các tập dữ liệu này được mơ tả trong Bảng 6.1. Các tập dữ liệu này khá thưa (sparse), vì vậy chúng tơi lọc để giữ lại những người dùng/tài nguyên học tập cĩ ít nhất 5 ratings.

Bảng 6.1: Mơ tả 5 tập dữ liệu đầy đủ

Stt Dataset #user #item #ratings

1 Ratings 53.424 10.000 981.756 2 LibraryThings 70.618 385.251 1.387.125 3 BX-Book-ratings 105.283 340.556 1.149.780 4 Related-Article Recommendation 2.663.825 7.224.279 48.879.167 5 Ratings-Books 8.026.324 2.330.066 22.507.155

Các tập dữ liệu về kết quả học tập của sinh viên: Gồm 3

tập dữ liệu về kết quả học tập của sinh viên. Tập dữ liệu thứ nhất là kết quả học tập của sinh viên của một số đơn vị đào tạo ở một trường đại học. Trong khi đĩ, tập dữ liệu thứ hai là kết quả học tập của sinh viên được giữ lại ít nhất 10 mẫu tin (10 mơn học) cho mỗi sinh viên. Tương tự, tập dữ liệu thứ 3 lọc giữ lại ít nhất 20 mẫu tin cho mỗi sinh viên.

6.4. Kết quả thực nghiệm

Trong nghiên cứu này, chúng tơi sử dụng độ đo RMSE để

đánh giá mơ hình và so sánh các phương pháp khác của hệ thống gợi ý như Global Average, User Average, Item Average, User-kNN CF

và MF. Các siêu tham số (hyperparameters) được tìm thơng qua thực

nghiệm. Cả hai thực nghiệm trên hai nhĩm dữ liệu gồm các tập dữ liệu về tài nguyên học tập và các tập dữ liệu về kết quả học tập của sinh viên đều cho kết quả khá tương đồng.

Chẳng hạn ở nhĩm các tập dữ liệu về tài nguyên học tập, chúng tơi tìm được số nơ-ron của tầng MLP vào khoảng 100; số yếu tố tiềm ẩn (latent factors) K ~ 10; số epochs để mơ hình DMF hội tụ là 2 (so với mơ hình MF hội tụ sau 4 đến 6 epochs). Tương tự đối với nhĩm các tập dữ liệu về kết quả học tập của sinh viên, mơ hình DMF luơn hội tụ sớm hơn.

Một ví dụ về độ đo RMSE giữa DMF và các phương pháp khác trong hệ thống gợi ý trên tập dữ liệu Dataset 1 như Hình 6.2. Kết quả tương tự ở các tập dữ liệu khác.

Hình 6.2: So sánh RMSE các phương pháp trên dataset 1 (Ratings)

Nhìn chung, DMF cho kết quả vượt trội hơn so với các

phương pháp khác của hệ thống gợi ý. Những tập dữ liệu khắc phục tình trạng dữ liệu thưa thì kết quả được ghi nhận tốt hơn so với tập

dữ liệu gốc. Từ kết quả dự đốn xếp hạng cĩ thể sử dụng để gợi ý

mơn học hay gợi ý tài nguyên học tập phù hợp với người học.

6.5. Tổng kết chương

Trong chương này, chúng tơi đã đề xuất mơ hình phân rã ma trận sâu DMF. Chúng tơi kiểm chứng mơ hình được đề xuất trên hai nhĩm dữ liệu gồm các tập dữ liệu về tài nguyên học tập và các tập dữ liệu về kết quả học tập của sinh viên và so sánh mơ hình đề xuất với các phương pháp khác của hệ thống gợi ý. Kết quả cho thấy mơ hình DMF cĩ hiệu suất dự đốn khá tốt so với các kỹ thuật khác trên cùng một tập dữ liệu. Từ kết quả dự đốn xếp hạng cĩ thể gợi ý tài nguyên học tập hay gợi ý mơn học phù hợp với từng người học.