Dataset
StudentPerformance10 StudentPerformance 20
Kết quả cho thấy mơ hình LSTM dự đốn đạt hiệu suất tốt hơn mơ hình MLP trên cùng mỗi tập dữ liệu. Điều này cho thấy mạng LSTM hoạt động khá tốt trên dữ liệu cĩ yếu tố chuỗi thời gian.
Tuy nhiên, đối với mơ hình LSTM, tập dữ liệu chứa ít nhất 20 mẫu tin cĩ độ đo RMSE tăng (tuy nhiên tăng khơng đáng kể) so với tập dữ liệu chứa ít nhất 10 mẫu tin. Điều này cĩ thể giải thích là do độ đo RMSE phụ thuộc vào trung bình độ đo RMSE của mơ hình cho từng sinh viên ở hai tập dữ liệu này. Ở tập dữ liệu chứa ít nhất 10 mẫu tin cho mỗi sinh viên cĩ 30.820 sinh viên riêng biệt. Điều này cĩ nghĩa là chúng ta huấn luyện 30.820 mơ hình riêng biệt, sau đĩ lấy độ đo RMSE trung bình của 30.820 mơ hình đĩ. Trong khi đĩ, ở tập dữ liệu chứa ít nhất 20 mẫu tin cho mỗi sinh viên thì cĩ 1.182 sinh viên riêng biệt. Điều này cĩ nghĩa là độ đo RMSE là trung bình của 1.182 mơ hình. Việc độ đo RMSE tăng như đề cập trên cĩ thể do mơ hình huấn luyện cho các sinh viên
cĩ RMSE tốt cĩ nhiều trong tập dữ liệu chứa ít nhất 10 mẫu tin sinh viên khơng xuất hiện trong tập dữ liệu chứa ít nhất 20 mẫu tin sinh viên.
Với mơ hình sử dụng kiến trúc MLP, kết quả khá tốt so với huấn luyện một mơ hình cho tất cả sinh viên như nghiên cứu ở phần trước. Điều này cĩ thể lý giải do việc sắp xếp dữ liệu theo từng sinh viên (tức là nhĩm lại theo từng sinh viên) đã tránh được vấn đề khởi đầu lạnh (cold-start problem). Ngồi ra, khi tăng số mẫu tin lên 20 cho mỗi sinh viên thì hiệu suất của mơ hình được cải thiện hơn (độ lỗi RMSE giảm). Điều này cĩ thể lý giải do mơ hình MLP sử dụng chung một tập huấn luyện và một tập kiểm tra, sắp xếp theo mã số sinh viên, khi tăng số mẫu tin cho mỗi sinh viên thì mơ hình học được tốt hơn, dẫn đến kết quả dự đốn được cải thiện.
5.6. Tổng kết chương
Trong chương này, cách tiếp cận xây dựng mơ hình dự đốn kết quả học tập trên tồn bộ dữ liệu sinh viên sử dụng mạng nơ-ron tích chập CNN đã được trình bày. Kỹ thuật tiền xử lý dữ liệu QTF được sử dụng trước khi đưa vào mơ hình học dự đốn. Bên cạnh đĩ, luận án này cũng trình bày một cách tiếp cận khác là xây dựng mơ hình dự đốn kết quả học tập theo nhĩm năng lực học tập sử dụng mạng nơ-ron truyền thẳng đa tầng MLP nhằm khắc phục vấn đề cĩ thể xảy ra là dùng dữ liệu của sinh viên cĩ kết quả học tập kém để dự đốn cho sinh viên cĩ kết quả học tập tốt, làm giảm mức độ chính xác của mơ hình dự đốn. Cũng cùng cách tiếp cận dự đốn dựa trên nhĩm năng lực học tập của sinh viên, tuy nhiên thay vì chia bốn nhĩm năng lực học tập dựa vào điểm mơn học như mơ hình MLP, đối với mơ hình sử dụng kỹ thuật rừng ngẫu nhiên RF dựa vào điểm tích lũy. Một cách tiếp cận dự đốn kết quả học tập khác của luận án là xây dựng mơ hình dự đốn kết quả học tập theo từng sinh viên sử dụng bộ nhớ ngắn dài hạn LSTM và mạng MLP. Đây là cách tiếp cận nhằm khắc phục “vấn đề khởi đầu lạnh”.
Các kết quả thực nghiệm cho thấy các mơ hình được đề xuất gồm mơ hình dự đốn kết quả học tập trên tồn bộ dữ liệu sinh viên, mơ hình dự đốn theo nhĩm năng lực học tập và mơ hình dự đốn theo từng sinh viên cho kết quả dự đốn khá tốt và được cải thiện dần theo trình tự các cách tiếp cận nêu trên. Điều này cho thấy các mơ hình và kỹ thuật được đề xuất, đặc biệt là các kỹ thuật học sâu cĩ thể áp dụng thực tế cho dự đốn kết quả học tập, từ đĩ cĩ thể sử dụng cho gợi ý mơn học phù hợp cho sinh viên.
Để cĩ kết quả học tập tốt, ngồi việc dự đốn kết quả mà người dùng cĩ thể đạt được, một vấn đề khác mà người học quan tâm là làm thế nào cĩ thể chọn lựa mơn học hay tài nguyên học tập (như sách, giáo trình, bài giảng…) phù hợp nhằm đáp ứng nhu cầu học. Chương tiếp theo sẽ đề xuất cách tiếp cận xây dựng mơ hình gợi ý tài nguyên học tập nhằm đáp ứng tốt nhất năng lực của người học.
CHƯƠNG 6. MƠ HÌNH GỢI Ý TÀI NGUYÊN HỌC TẬP
Trong chương này, mơ hình phân rã ma trận sâu DMF (Deep Matrix Factorization), mở rộng từ phân rã ma trận chuẩn (MF), được đề xuất để gợi ý tài nguyên học tập phù hợp với năng lực của người học. Mơ hình đề xuất được kiểm chúng trên hai nhĩm dữ liệu thực nghiệm gồm nhĩm dữ liệu là kết quả học tập của sinh viên ở một trường đại học và nhĩm dữ liệu khác gồm 5 tập dữ liệu về tài nguyên học tập của người dùng. Ngồi ra, mơ hình cũng được đánh giá, so sánh với các kỹ thuật khác của hệ thống gợi
ý(gọi là các baselines). Kết quả thử nghiệm cho thấy mơ hình DMF được đề xuất hoạt động khá tốt, cĩ thể là lựa chọn tốt cho các tập dữ liệu cĩ quy mơ lớn.
Những kết quả chính của chương này là đề xuất mơ hình DMF với kiến trúc và các tham số chi tiết cho hệ thống gợi ý tài nguyên học tập; so sánh mơ hình đề xuất với các phương pháp khác trong hệ thống gợi ý; kiểm chứng mơ hình trên nhĩm dữ liệu về kết quả học tập của sinh viên ở một trường đại học và nhĩm dữ liệu về tài nguyên học tập. Ởmỗi tập dữ liệu cĩ so sánh kết quả của tập dữ liệu gốc với tập dữ liệu đã được giảm chiều để thấy được hiệu quả của mơ hình DMF khi giảm chiều các tập dữ liệu cĩ quy mơ lớn.
Nội dung trình bày trong chương đã được cơng bố tại cơng trình CT10 (Tran
Thanh Dien et al., 2021).
6.1. Giới thiệu
Học tập là cơng việc suốt đời của người học. Với phương thức truyền thống, người học và giảng viên cĩ thể gặp mặt trực tiếp với nhau. Tuy nhiên, trong trường hợp người học khơng thể tương tác với giảng viên thì tài nguyên học tập (như sách, giáo trình/bài giảng, tạp chí...) sẽ rất hữu ích cho người học để cĩ thể thu nhận kiến thức. Với sự phát triển của cơng nghệ thơng tin, việc học cĩ xu hướng chuyển từ cách học truyền thống sang học trực tuyến. Ngày nay, thơng tin cĩ thể được tìm kiếm từ các thư viện điện tử hoặc trên Internet; người học cĩ xu hướng tìm kiếm tài nguyên học tập ưa thích trên các hệ thống quản lý tài nguyên trực tuyến.
Các nguồn tài nguyên học tập đề cập đến mọi mặt của đời sống xã hội, giúp người học khai thác triệt để các khía cạnh và thơng tin của vấn đề mình cần nghiên cứu. Tuy nhiên, cĩ quá nhiều hệ thống tư liệu và tài nguyên khác nhau làm cho người học gặp khĩ khăn trong việc lựa chọn tài nguyên học tập nào phù hợp. Với sự bùng nổ của các thư viện điện tử, nguồn dữ liệu đã tăng lên đáng kể, hầu hết hệ thống tài nguyên học tập đều cĩ ghi nhận thơng tin đánh giá (ratings) về tài nguyên học tập. Đối với dữ liệu về kết quả học tập của người học thì ratings thể hiện ở điểm đạt được của họ. Các đánh giá này cho thấy nghiên cứu giải pháp gợi ý cho người học chọn lựa những tài nguyên học tập phù hợp nhất là cần thiết giúp quá trình học tập đạt kết quả tốt hơn.
Cĩ nhiều giải thuật được đề xuất trong RS. Thơng qua các nghiên cứu trước đĩ (Su and Khoshgoftaar, 2009; Ricci et al., 2011; Bobadilla et al., 2013), ta cĩ thể nhĩm các giải thuật này thành các nhĩm chính, gồm lọc dựa trên nội dung (content-based filtering), lọc cộng tác (collaborative filtering), lọc lai (hybrid filtering) là sự kết hợp cả nhĩm giải thuật lọc trên nội dung và nhĩm giải thuật lọc cộng tác. Gần đây nhiều phương pháp lai được nghiên cứu để kết hợp các kỹ thuật khác nhau, bao gồm các kỹ thuật học máy truyền thống và kỹ thuật học sâu nhằm đưa ra các gợi ý tài nguyên học tập được tốt hơn như gợi ý sách nĩi riêng và gợi ý tài nguyên học tập nĩi chung. Trong nghiên cứu này, mơ hình phân rã ma trận sâu DMF được đề xuất để cung cấp các gợi ý hiệu quả về tài ngun học tập như sách, giáo trình, tạp chí,...
Nội dung tiếp theo của chương được trình bày như sau: khái quát về gợi ý tài nguyên học tập; mơ hình gợi ý tài nguyên học tập sử dụng kỹ thuật DMF được đề xuất; các phương pháp trong hệ thống gợi ý dùng làm cơ sở so sánh (gọi là các baselines) với mơ hình đề xuất; mơ tả dữ liệu; kết quả thực nghiệm; cuối cùng là tổng kết chương cùng một vài nhận xét.
6.2. Khái quát về vấn đề gợi ý tài nguyên học tập
Thực tế, bài tốn dự đốn xếp hạng và gợi ý khơng thể tách rời nhau. Để gợi ý thì cần cĩ kết quả dự đốn xếp hạng, từ kết quả dự đốn cĩ thể chọn ra các kết quả cĩ hạng tốt nhất để gợi ý. Trong lĩnh vực giáo dục, dự đốn kết quả học tập hay dự đốn việc sử dụng hiệu quả tài nguyên học tập là tiền đề để gợi ý tài nguyên học tập phù hợp với từng người học.
Nghiên cứu này đề xuất mơ hình gợi ý tài nguyên học tập sử dụng hai nhĩm dữ liệu gồm (1) các tập dữ liệu về tài nguyên học tập và (2) các tập dữ liệu về kết quả học tập của sinh viên của một trường đại học.
6.2.1. Đối với dữ liệu về tài nguyên học tập
Bài tốn gợi ý tài nguyên học tập được phát biểu (Problem formulation) như sau: Gọi u là user/người học, i là item/tài nguyên học tập (learning resource) như sách, tạp chí, bài báo và r là feedback/phản hồi của u trên learning resource i (xếp hạng/ratings). Một cách tổng quát, gợi ý tài nguyên học tập cĩ thể được ánh xạ thành vấn đề dự đốn hạng trong hệ thống gợi ý, được biểu diễn như sau:
Người học, người đọc hoặc sinh viên → User Tài nguyên học tập (sách, tạp chí, bài báo) → Item Feedback (xếp hạng, số lần view, click chuột) → Ratings
Giai đoạn dự đốn: Cho trước một tập dữ liệu D(u, i, r), chúng ta mong muốn
xây dựng mơ hình dự đốn để dự đốn giá trị xếp hạng của tài nguyên học tập mà người học chưa đọc (các ơ rỗng trong ma trận của Hình 6.1).
Giai đoạn gợi ý: Sau khi cĩ kết quả dự đốn, chúng ta sắp xếp giá trị xếp hạng
theo thứ tự tăng dần và chọn tốp N tài nguyên học tập cĩ xếp hạng cao nhất để gợi ý (N cĩ thể là 3, 5 hoặc giá trị khác tùy thuộc vào hệ thống gợi ý).
6.2.2. Đối với dữ liệu về mơn học
Đối với dữ liệu về mơn học (kết quả học tập của người học đối với mơn học), bài tốn gợi ý mơn học được phát biểu như sau: Gọi u (user) là người học; i (item) là mơn học mà người học tham gia học; r (rating) là điểm của mà người học đạt được. Một cách tổng quát, bài tốn gợi ý mơn học cĩ thể được ánh xạ thành vấn đề dự đốn xếp hạng trong hệ thống gợi ý, được biểu diễn như sau:
Người học → User Mơn học → Item
Điểm → Ratings
Giai đoạn dự đốn: Cho trước một tập dữ liệu D(u, i, r), chúng ta mong muốn
xây dựng mơ hình dự đốn nhằm dự đốn kết quả học tập của người học, cụ thể là dự đốn điểm mơn học của người học.
Giai đoạn gợi ý: Sau khi cĩ kết quả dự đốn, chọn tốp N mơn học cĩ điểm dự
đốn cao nhất để gợi ý cho người học (N là số lượng mơn học tùy theo quy định của quy chế học vụ).
Hình 6.1: Ma trận biểu diễn dữ liệu trong RS (user-item-rating matrix) 6.3. Mơ hình gợi ý tài nguyên học tập bằng mơ hình phân rã ma trận sâu
Nghiên cứu này đề xuất mơ hình gợi ý sử dụng phân rã ma trận sâu DMF (Deep Matrix Factorization) như mơ tả chi tiết ở Hình 6.2. Mơ hình này được đề xuất dựa trên các nghiên cứu trước đĩ (Guo et al., 2017; Zhang, F. et al., 2018) gợi ý về dữ liệu khuyết khơng ngẫu nhiên và hiệu quả kinh doanh dựa trên tỷ lệ nhấp chuột.
Mơ hình DMF cĩ bốn tầng. Một tầng đầu vào (input layer) mơ tả người dùng/tài nguyên học tập hiện tại; một tầng nhúng (embedding layer) để nhúng các thuộc tính người dùng và tài nguyên học tập (các yếu tố tiềm ẩn). Các thuộc tính nhúng này được nối với nhau làm đầu vào cho tầng mạng nơ-ron truyền thẳng đa tầng (Multilayer Perceptron - MLP). Cuối cùng, một tầng đầu ra (output layer) cho kết quả giá trị xếp
hạng được dự đốn. MLP cĩ 128 nút (nơ-ron), tuy nhiên, chúng ta cĩ thể thiết lập số lượng tầng ẩn khác nhau (chẳng hạn thêm nhiều tầng hơn) và số lượng nơ-ron khác nhau phụ thuộc vào các tập dữ liệu khác nhau. Trong nghiên cứu này, số nút được chọn bằng phương pháp tìm kiếm siêu tham số (hyper-parameter). Mạng được triển khai với hàm tối ưu Adam, sử dụng batch size là 256 và tốc độ học mặc định là 0,001.
Hình 6.2: Framework của mơ hình DMF
Ngồi ra, để kiểm chứng mơ hình học sâu DMF, mơ hình ma trận phân rã chuẩn (MF) được đề xuất như Hình 6.3.
Thay vì sử dụng mạng nơ-ron đa tầng MLP như trong mơ hình DMF thì ở mơ hình MF chuẩn chỉ thực hiện một phép tính tích vơ hướng (Dot product) giữa hai véc- tơ đặc trưng người dùng và tài nguyên học tập từ tầng nhúng.
Trong mơ hình DMF, tầng nhúng (embedding layer) làm nhiệm vụ ánh xạ véc-tơ thưa cĩ số chiều lớn vào một khơng gian véc-tơ cĩ số chiều thấp hơn đồng thời véc-tơ dày đặc hơn và bảo tồn các mối quan hệ ngữ nghĩa tồn tại trong dữ liệu ban đầu. Kết quả của q trình nhúng là véc-tơ đặc tính ẩn (latent factor vector) mơ tả về người dùng hoặc tài nguyên học tập. Dữ liệu gốc được tầng nhúng ánh xạ vào khơng gian véc-tơ tiềm ẩn thu được các véc-tơ dày đặc hơn, chúng ta cĩ thể sử dụng tích vơ hướng của hai véc-tơ này để tính tốn giá trị xếp hạng của người dùng như mơ hình MF hoặc các véc-tơ tiềm ẩn được nối lại với nhau để tạo thành véc-tơ đặc tính mới phục vụ cho tính tốn tiếp theo bằng kỹ thuật MLP như mơ hình DMF.
6.4. Các phương pháp trong hệ thống gợi ý
Nghiên cứu này tập trung vào vấn đề dự đốn xếp hạng trong hệ thống gợi ý. Cĩ nhiều kỹ thuật trong dự đốn xếp hạng, tuy nhiên phần này đề xuất các phương pháp phổ biến của hệ thống gợi ý để làm cơ sở (baselines) so sánh với mơ hình DMF được trình bày chi tiết ở phần 2.5.3 về một số kỹ thuật trong hệ thống gợi ý.
6.5. Mơ tả dữ liệu thực nghiệm
Mơ hình được kiểm chứng dựa trên hai nhĩm dữ liệu thực nghiệm, gồm các tập dữ liệu về tài nguyên học tập và các tập dữ liệu về kết quả học tập của sinh viên của một trường đại học. Các mơ hình được đánh giá, so sánh với các kỹ thuật khác của hệ thống gợi ý.
Các tập dữ liệu về tài nguyên học tập: gồm 5 tập dữ liệu mơ tả việc đánh giá
(ratings) tài nguyên học tập (item) của người dùng (user). Số lượng người dùng, tài nguyên học tập và xếp hạng của các tập dữ liệu này được mơ tả trong Bảng 6.1.