Mơ hình dự đốn kết quả học tập trên tồn bộ dữ liệu sinh viên

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 97 - 105)

CHƯƠNG 5 MƠ HÌNH DỰ ĐỐN KẾT QUẢ HỌC TẬP

5.3. Mơ hình dự đốn kết quả học tập trên tồn bộ dữ liệu sinh viên

5.3.1. Mơ hình đề xuất

Trong nghiên cứu này, kiến trúc học sâu mạng nơ-ron tích chập (CNN) để thực hiện bài tốn dự đốn kết quả học tập của sinh viên (hay người học nĩi chung) được sử dụng. Mạng CNN xây dựng mơ hình dự đốn được chọn vì kỹ thuật này sử dụng khá tốt

cho mơ hình dự đốn với dạng dữ liệu một chiều (1D) và cĩ tính tuần tự theo thời gian (Brownlee, 2018).

Kiến trúc học sâu sử dụng một mạng nơ-ron tích chập CNN trên dữ liệu một chiều cĩ dạng như Hình 5.1. Kiến trúc này nhận đầu vào gồm một chuỗi dữ liệu với 21 thuộc tính đi qua lớp tích chập đầu tiên sử dụng 64 kernels kích thước 3 với bước trượt (stride) là 1.

Hình 5.1: Kiến trúc CNN đề xuất

Kết quả sau lớp tích chập sẽ gồm 64 feature map với độ dài 19 sẽ đi qua hàm ReLU biến các giá trị âm thành 0 và được trải ra thành một mảng với độ dài 1216. Mảng gồm 1216 giá trị này sẽ được tính tốn với hàm sigmoid để cho đầu ra là giá trị từ 0 đến 1. Giá trị này được nhân với 4 để tương ứng với thang điểm 4 thực tế cần dự đốn.

5.3.2. Mơ tả dữ liệu

Để đánh giá mơ hình đề xuất, dữ liệu thực tế tại một trường đại học đa ngành được sử dụng. Tuy nhiên, mơ hình cĩ thể được áp dụng cho các trường đại học, cao đẳng hay trường phổ thơng. Dữ liệu thu thập liên quan đến sinh viên, mơn học, điểm và các thơng tin khác từ năm 2007 đến 2019 với hơn 3,8 triệu mẫu tin. Dữ liệu được phân bố thành nhiều tập được mơ tả như Bảng 5.1 với thơng tin về các mẫu và tỷ lệ tập huấn luyện của các đơn vị đào tạo.

Bảng 5.1: Phân bố dữ liệu của các đơn vị đào tạo

Tập dữ liệu #Train #Test %Train #Tổng

Sư phạm 292.297 78.987 78,73% 371.284

Mơi trường và Tài nguyên thiên nhiên 125.659 83.687 60,02% 209.346

Kinh tế 518.392 171.538 75,14% 689.930

Tập dữ liệu #Train #Test %Train #Tổng

Khoa học Xã hội và Nhân văn 96.491 47.469 67,03% 143.960

Thủy sản 109.637 49.498 68,90% 159.135

Luật 155.099 54.194 74,11% 209.293

Khoa học Chính trị 33.493 30.009 52,74% 63.502

Nghiên cứu phát triển ĐBSCL 27.795 10.206 73,14% 38.001

Nơng nghiệp 294.694 179.042 62,21% 473.736

Nghiên cứu và phát triển CNSH 46.556 30.075 60,75% 76.631

Giáo dục thể chất 26.318 6427 80,37% 32.745

Cơng nghệ 418.835 214.710 66,11% 633.545

Cơng nghệ Thơng tin và Truyền thơng 132.907 86.901 60,47% 219.808

Khoa học Tự nhiên 79.368 42.121 65,33% 121.489

Phát triển Nơng thơn 101.039 102.994 49,52% 204.033

Tổng (tồn bộ tập dữ liệu) 2.584.462 1.244.417 67,50% 3.828.879

Tập dữ liệu bao gồm kết quả học tập của sinh viên từ 16 đơn vị đào tạo. Mỗi tập dữ liệu ứng với một đơn vị đào tạo được chia thành hai phần: một phần sử dụng cho giai đoạn huấn luyện và phần cịn lại cho giai đoạn kiểm tra. Do phân chia dữ liệu theo giai đoạn (từ 2007 đến 2016 dùng huấn luyện và từ 2017 đến 2019 dùng kiểm tra) nên tỷ lệ dữ liệu cho huấn luyện và kiểm tra của mỗi đơn vị là khác nhau.

Sự phân bố phổ điểm của tồn bộ tập dữ liệu huấn luyện và kiểm tra được mơ tả trong Hình 5.2 và Hình 5.3. Chúng ta nhận thấy, hầu hết điểm đều lớn hơn hoặc bằng mức trung bình là 2 (chiếm hơn 89,7% đối với tập huấn luyện và 88,6% đối với tập kiểm tra). Sự phân bố điểm gần như tương tự như hầu hết các tập dữ liệu của các đơn vị.

Hình 5.3: Phân bố các mức điểm trên tập kiểm tra của tồn bộ tập dữ liệu 5.3.3. Tiền xử lý dữ liệu 5.3.3. Tiền xử lý dữ liệu

Tập dữ liệu được thu thập từ một hệ thống quản lý sinh viên cĩ 65 thuộc tính. Sau khi phân tích các yếu tố ảnh hưởng đến kết quả học tập của sinh viên bằng phương pháp Pearson, các thuộc tính cĩ ảnh hưởng đến kết quả dự đốn của mơ hình (các thuộc tính tương đối độc lập) đã được chọn. Các thuộc tính này được mơ tả như Bảng 5.2. Trong đĩ, Mark (điểm mơn học) là thuộc tính cần dự đốn, các thuộc tính khác là dữ liệu đầu vào của mơ hình dự đốn.

Dữ liệu cĩ rất nhiều thơng tin, chúng tơi cần tiền xử lý trước khi chạy mơ hình. Một số cơng việc tiền xử lý gồm: loại bỏ các thuộc tính dư thừa như tên sinh viên, tên mơn học, tên giảng viên, lịch học, ngày tham gia tổ chức đồn thể; loại bỏ dữ liệu gây nhiễu như điểm miễn (-2), điểm chưa hồn thành mơn học (-1), điểm rút mơn học (-5), những trường hợp sinh viên đăng ký nhưng khơng tham gia học tập (null); xử lý những thuộc tính khơng đủ thơng tin như khơng gán ID người dạy, mơn học khơng tổ chức giảng dạy do cĩ dưới 15 sinh viên đăng ký; chuyển đổi định dạng từ kiểu chuỗi sang kiểu số.

Bảng 5.2: Bảng mơ tả các thuộc tính của dữ liệu

Stt Tên thuộc tính Mơ tả

Các thuộc tính dữ liệu đầu vào

1 CGPA Điểm trung bình tích lũy đã đạt đến học kỳ trước 2 CGPA-PreSemester Điểm trung bình tích lũy đã đạt ở học kỳ trước

3 CourseID ID mơn học

4 TotalCredit Tổng số tín chỉ tích lũy đến học kỳ trước 5 EnglishMark_l1 Mơn học tiếng Anh cơ bản - Cấp độ 1 6 EnglishMark_l2 Mơn học tiếng Anh cơ bản - Cấp độ 2 7 EnglishMark_l3 Mơn học tiếng Anh cơ bản - Cấp độ 3 8 EntranceMark_s1 Điểm tuyển sinh mơn 1

Stt Tên thuộc tính Mơ tả

10 EntranceMark_s3 Điểm tuyển sinh mơn 3

11 EntranceYear Năm đầu vào (ví dụ 2007, 2009…)

12 Faculty Khoa sinh viên đang học

13 FieldOfStudy Ngành học

14 Gender Giới tính

15 GPA-Semester Điểm trung bình các mơn đã học đến học kỳ trước 16 HighSchoolPlace Trường phổ thơng

17 LecturerID ID giảng viên

18 Semester Thứ tự học kỳ của sinh viên ( học kỳ 1, học kỳ 2...) 19 NumberOfCredits Số lượng tín chỉ của mơn học

20 StudentID ID sinh viên

Thuộc tính dự đốn

21 Mark Điểm mơn học

Với các thuộc tính khác nhau của dữ liệu được phân bố đa dạng, các phép chuyển đổi QTF được đề xuất (Pedregosa et al., 2012) để chuyển đổi tất cả các giá trị sang dãy giá trị nhất định giúp các giải thuật học sâu cĩ thể hội tụ được, nhằm cải thiện hiệu suất của các mơ hình dự đốn.

Hình 5.4 là một ví dụ của Khoa Phát triển Nơng thơn. Hình 5.4(a) là kết quả của trước và sau khi chuyển đổi thuộc tính CGPA-PreSemester; Hình 5.4(b) minh họa phân bố dữ liệu với các dãy dữ liệu khác nhau của một số thuộc tính trước khi chuyển đổi và phân bố dữ liệu của tất cả các thuộc tính này sau khi được chuyển đổi sử dụng QTF với thang đo từ 0 đến 1.

5.3.4. Kết quả thực nghiệm

5.3.4.1. Cài đặt các siêu tham số và mơi trường thực nghiệm

Trong nghiên cứu này, các siêu tham số cho kiến trúc học sâu CNN được thực nghiệm tìm kiếm. Để giảm thiểu vấn đề overfitting, kỹ thuật early stopping được sử dụng với 5 epochs liên tục, kết quả khơng cải thiện thì dừng học, giải thuật thực hiện tối đa 500 epochs. Các hàm tối ưu Adam và RMSprop được sử dụng. Tốc độ học cho các mơ hình là 0,0001 kích thước batch size 16000...

Để thực nghiệm, các thơng số kỹ thuật được cài đặt như sau: một server 72 core và 320 GB RAM, hệ điều hành Ubuntu 20.4. Các thực nghiệm được cài đặt và lập trình trên mơi trường Python 3.7, sử dụng các thư viện deep learning như Tensorflow, Scikit- Learn, keras, Numpy và Matplotlib để hỗ trợ tiến trình triển khai các thực nghiệm.

Trong nghiên cứu này, độ đo phổ biến để đánh giá mơ hình là sai số tuyệt đối trung bình MAE (Mean Absolute Error) được sử dụng. Độ đo này được tính trung bình trên 5 lần chạy. Độ đo MAE được biểu diễn như biểu thức 5.1.

MAE =1n�|𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖|

n i=1

5.1 Trong đĩ, yi là điểm thực tế ở mẫu thứ i, 𝑦𝑦�𝑖𝑖 là điểm số dự đốn tương ứng; n là số mẫu của dữ liệu dùng để đánh giá.

5.3.4.2. Thực nghiệm dự đốn kết quả học tập với mạng nơ-ron tích chập CNN, hàm tối ưu Adam, sử dụng và khơng sử dụng phép biến đổi dữ liệu

Phần này trình bày thực nghiệm trên mơ hình dự đốn kết quả học tập sử dụng kỹ thuật học sâu với mạng nơ-ron tích chập CNN. Thực nghiệm cũng so sánh chạy mơ hình khi khơng sử dụng hoặc cĩ sử dụng phép biến đổi dữ liệu QTF. Hàm tối ưu được sử dụng là Adam.

Kết quả thể hiện trong Bảng 5.3 cho thấy dữ liệu qua phép biến đổi QTF cho kết quả dự đốn cĩ độ sai số khá tốt khi cĩ 16 tập dữ liệu đang xét cĩ độ đo MAE đều nhỏ hơn 0,8 (dự đốn trên thang điểm 4), cá biệt cĩ độ đo MAE nhỏ hơn 0,5 khi sử dụng kiến trúc CNN. Từ kết quả này, kỹ thuật QTF được sử dụng làm phép biến đổi dữ liệu để tiến hành thực nghiệm tiếp theo.

Bảng 5.3: Kết quả dự đốn kết quả học tập với độ đo MAE sử dụng mạng nơ-ron tích

chập CNN, phép biến đổi QTF và hàm tối ưu Adam

Dataset None QTF

Sư phạm 0,8595 0,5847

Mơi trường và Tài nguyên thiên nhiên 1,0308 0,6130

Kinh tế 1,1129 0,6098

Dataset None QTF

Khoa học Xã hội và Nhân văn 3,0476 0,5793

Thủy sản 1,1499 0,6471

Luật 1,0574 0,5675

Khoa học Chính trị 1,0017 0,5547

Nghiên cứu phát triển ĐBSCL 3,1145 0,5684

Nơng nghiệp 0,9733 0,5828

Nghiên cứu và phát triển CNSH 0,8133 0,5980

Giáo dục thể chất 3,0487 0,6853

Cơng nghệ 1,3427 0,7487

Cơng nghệ Thơng tin và Truyền thơng 2,7080 0,7285

Khoa học Tự nhiên 1,2244 0,7989

Phát triển Nơng thơn 1,2134 0,6936

5.3.4.3. Thực nghiệm dự đốn kết quả học tập với mạng nơ-ron tích chập CNN, các hàm tối ưu Adam và RMSprop, sử dụng phép biến đổi dữ liệu QTF

Trong thực nghiệm này, mạng nơ-ron tích chập CNN để xây dựng các mơ hình dự đốn kết quả học tập tiếp tục được sử dụng, với dữ liệu được biến đổi bằng kỹ thuật QTF. Tuy nhiên, ngồi việc sử dụng hàm tối ưu Adam, hàm tối ưu RMSprop cũng được đề xuất sử dụng để so sánh, đánh giá khách quan hơn về mơ hình đề xuất. Kết quả thực nghiệm trình bày như Bảng 5.4.

Bảng 5.4: Kết quả dự đốn kết quả học tập với độ đo MAE sử dụng mơ hình học sâu

CNN, phép biến đổi QTF và hai hàm tối ưu Adam và RMSprop

Dataset CNN-RMSprop CNN-Adam

Sư phạm 0,5733 0,5847

Mơi trường và Tài nguyên thiên nhiên 0,5989 0,6130

Kinh tế 0,5922 0,6098

Ngoại ngữ 0,4853 0,4961

Khoa học Xã hội và Nhân văn 0,5920 0,5793

Thủy sản 0,5918 0,6471

Luật 0,5546 0,5675

Khoa học Chính trị 0,5765 0,5547

Nghiên cứu phát triển ĐBSCL 0,5678 0,5684

Nơng nghiệp 0,5806 0,5828

Nghiên cứu và phát triển CNSH 0,5330 0,5980

Giáo dục thể chất 0,6762 0,6853

Cơng nghệ 0,7454 0,7487

Cơng nghệ Thơng tin và Truyền thơng 0,6903 0,7285

Khoa học Tự nhiên 0,6725 0,7989

Kết quả thực nghiệm ở Bảng 5.4 cho thấy với mơ hình dự đốn sử dụng mạng nơ- ron tích chập CNN thì hàm tối ưu RMSprop cho kết quả dự đốn tốt hơn Adam trên hầu hết tập dữ liệu đang xét (13/16 tập dữ liệu), khi sử dụng kết hợp với phép biến đổi dữ liệu QTF. Kết quả này cho thấy hàm tối ưu RMSprop cĩ khả năng phù hợp khi sử dụng dữ liệu một chiều (1D) và cĩ tính chất trình tự (sequence time).

Từ kết quả này chúng ta cĩ một số nhận xét như sau: Kết quả dự đốn ở Khoa Cơng nghệ đạt hiệu suất thấp cĩ thể được giải thích là do sự phân bố dữ liệu khơng đồng đều ở tập train và tập test, thể hiện ở Hình 5.5 và Hình 5.6. Sự phân bố này cho thấy giữa tập train và tập test tồn tại một số khác biệt lớn về tỷ lệ mức điểm 3,5 so với các mức điểm cịn lại.

Hình 5.5: Phân bố các mức điểm trên tập huấn luyện của Khoa Cơng nghệ

Hình 5.6: Phân bố các mức điểm trên tập kiểm tra của Khoa Cơng nghệ

Ngồi ra, kết quả dự đốn cĩ hiệu suất thấp ở tập dữ liệu của Khoa Phát triển Nơng thơn cĩ thể là do dữ liệu trong tập train thậm chí cịn ít số mẫu trong tập test: tập train cĩ 101.039, chiếm tỷ lệ 49,52% so với tập test cĩ 102.994 mẫu, chiếm tỷ lệ 50,48%. Điều này cĩ thể mơ hình khơng cĩ đủ dữ liệu để học, dẫn đến hiệu quả dự đốn thấp hơn các tập dữ liệu khác.

Với phép biến đổi QTF, hàm tối ưu RMSprop và Adam, mơ hình sử dụng mạng nơ-ron tích chập CNN cũng được thực nghiệm để dự đốn kết quả học tập trên tồn bộ tập dữ liệu chứa hơn 3,8 triệu mẫu tin được thu thập từ tất cả các đơn vị đào tạo của Trường Đại học Cần Thơ. Tập huấn luyện bao gồm 2.584.462 mẫu (67,5%) là điểm sinh viên từ năm 2007 đến 2016, và tập kiểm tra gồm 1.244.417 mẫu (32,5%) là điểm từ năm 2017 đến 2019. Kết quả thực nghiệm đánh giá mơ hình với độ đo MAE được trình bày như Hình 5.7.

Kết quả cho thấy, sử dụng hàm tối ưu Adam cho kết quả tốt hơn so với hàm tối ưu RMSprop khi sử dụng mơ hình dự đốn với kiến trúc mạng nơ-ron tích chập CNN. Điều này cĩ thể được lý giải khi chúng ta sử dụng tồn bộ tập dữ liệu thì tính chất trình tự của dữ liệu bị hạn chế, vì vậy hàm RMSprop chưa phát huy được thế mạnh của nĩ.

Hình 5.7: Độ đo MAE sử dụng mạng CNN với hàm tối ưu RMSprop và Adam trên

tồn tập dữ liệu

Mặc dù vậy, các kết quả thực nghiệm này thấy rằng mơ hình dự đốn kết quả học tập sử dụng mạng nơ-ron tích chập CNN cho kết quả dự đốn khá tốt, với độ đo MAE đều nhỏ hơn 0,65 (trên thang điểm 4). Tùy theo tập dữ liệu chúng ta cĩ thể tìm kiếm các siêu tham số để mơ hình dự đốn cho kết quả tối ưu, chẳng hạn tìm kiếm hàm tối ưu, kỹ thuật tiền xử lý và biến đổi dữ liệu, các tham số học của mơ hình dự đốn sử dụng kỹ thuật học sâu,…

Tuy nhiên, việc sử dụng một mơ hình cho tất cả sinh viên cĩ thể gặp phải vấn đề là dùng dữ liệu của sinh viên cĩ kết quả học tập kém để dự đốn cho sinh viên cĩ kết quả học tập tốt, từ đĩ kết quả cĩ thể sẽ giảm mức độ chính xác. Vì thế, luận án đề xuất xây dựng mơ hình dự đốn kết quả học tập dựa theo các nhĩm năng lực học tập của sinh viên. Mơ hình này sẽ trình bày ở phần tiếp theo.

Một phần của tài liệu Xây dựng mô hình tìm kiếm và gợi ý tài nguyên học tập (Trang 97 - 105)

Tải bản đầy đủ (PDF)

(148 trang)