SỬ DỤNG CÁC MÔ HÌNH MACHINE LEARNING DỰ ĐOÁN TÌNH TRẠNG SINH VIÊN TỐT NGHIỆP ĐÚNG HẠN - Full 10 điểm

52Tạp chí Khoa học & Đào tạo Ngân hàng Số 255- Tháng 8. 2023 © Học viện Ngân hàng ISSN 1859 - 011X Sử dụng các mô hình Machine Learning dự đoán tình trạng sinh viên tốt nghiệp đúng hạn Nguyễn Văn Thủy Học viện Ngân hàng Ngày nhận: 02/03/2023 Ngày nhận bản sửa: 06/04/2023 Ngày duyệt đăng: 14/04/2023 Tóm tắt: Nghiên cứu nhằm thực hiện lựa chọn mô hình học máy (Machine Learning) tối ưu để dự đoán tình trạng sinh viên tốt nghiệp đúng hạn. Bằng việc sử dụng tập dữ liệu của sinh viên chuyên ngành Ngân hàng của Học viện Ngân hàng giai đoạn 2010- 2020, thông qua các mô hình học máy như Logistic Regression, K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector Machine, XGBoost, CatBoost, nghiên cứu đã lựa chọn được mô hình Random Forest là mô hình tối ưu nhất. Nghiên cứu đã chỉ ra các thuộc tính thông tin xử lý học vụ và điểm trung bình các học kỳ 1 đến 4 có tác động mạnh đến khả năng tốt nghiệp đúng hạn, quá hạn của sinh viên từ đó đề xuất một số khuyến nghị giúp cho Nhà trường đưa ra các giải pháp nâng cao tỷ lệ tốt nghiệp của sinh viên. Từ khóa: Dự báo kết quả học tập sinh viên, Học máy, Học sâu, Trí tuệ nhân tạo Using Machine Learning models to predict the on-time graduation status of students Abstract: The study aims to perform optimal Machine Learning model selection to predict the on-time graduation status of students. By using the dataset of students majoring in Banking faculty from the Banking Academy during the period of 2010-2020 through Machine Learning models such as Logistic Regression, K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector Machine, XGBoost, and CatBoost, the study has chosen Random Forest as the optimal model. The research has identified 2 attributes: Academic processing information and Grade Point Average (GPA) of semesters 1 through 4 have a strong impact on the ability of students to graduate on time or late, and proposed some recommendations to help the school provide solutions to improve the graduation rate of students. Key words: Predicting student learning outcomes, Machine learning, Deep learning, artificial intelligence. Doi: 10.59276/TCKHDT.2023.08.2506. Nguyen, Van Thuy Banking Academy of VietNam Email: thuynv@hvnh.edu.vn NGUYỄN VĂN THỦY53Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 1. Giới thiệu Giáo dục đại học có vai trò rất quan trọng trong việc phát triển nguồn nhân lực chất lượng cao. Nó không chỉ cung cấp kiến thức chuyên môn cho sinh viên, mà còn trang bị các kỹ năng và phẩm chất cá nhân để đáp ứng nhu cầu của xã hội và thị trường lao động. Các cơ sở giáo dục đại học thiết kế các chương trình đào tạo từ 4-5 năm để sinh viên có thể tích lũy đầy đủ các kiến thức, kỹ năng, năng lực đáp ứng các nhu cầu của xã hội. Tuy nhiên theo VnExpress (2022), thực tế tại các cơ sở giáo dục đại học của Việt Nam nói riêng và trên thế giới nói chung có một tỷ lệ không nhỏ từ 14- 50% sinh viên tốt nghiệp muộn hoặc không tốt nghiệp. Điều này gây ra một sự lãng phí nguồn lực vô cùng lớn cho xã hội. Nguyên nhân của tình trạng này đến từ cả phía chủ quan và khách quan trong quá trình học tập của sinh viên tại trường như lý do tâm lý, hoàn cảnh gia đình, môi trường bạn bè, phương pháp học tập đại học, không tập trung trong quá trình học do môi trường học tập của các cơ sở giáo dục đại học. Gia đình và nhà trường cần can thiệp sớm để xác định các sinh viên có khả năng rơi vào tình trạng tốt nghiệp muộn hoặc không đủ điều kiện tốt nghiệp để có các biện pháp hỗ trợ tích cực cho đối tượng này. Dự đoán sớm tình trạng, nguy cơ của sinh viên giúp cho gia đình và nhà trường có được sự tư vấn kịp thời đến sinh viên, giúp sinh viên định hướng tốt nhất quá trình học tập, hướng tới nâng cao hiệu quả học tập và giảm thiểu tình trạng tốt nghiệp muộn hoặc không tốt nghiệp được của sinh viên. Tuy nhiên việc dự báo sớm kết quả học tập của sinh viên là một thách thức đối với các trường đại học. Các trường đại học đang gặp khó khăn trong việc dự báo sớm kết quả học tập của sinh viên do nhiều yếu tố khác nhau. Thứ nhất, mỗi sinh viên có nền tảng học vấn, khả năng và hoàn cảnh khác nhau, làm cho việc dự báo trở nên phức tạp và khó chính xác tới từng cá nhân sinh viên. Thứ hai, quá trình học tập của sinh viên là một quá trình dài, bao gồm nhiều yếu tố không chỉ liên quan đến khả năng học tập của sinh viên mà còn liên quan đến các yếu tố khác như tâm lý, xã hội, môi trường học tập và nhiều tác động khác từ môi trường khách quan. Nhiều sinh viên có thể gặp khó khăn trong việc hòa nhập với môi trường học tập, gặp các vấn đề về sức khỏe hoặc tâm lý, gây ảnh hưởng đến quá trình học tập và kết quả học tập của họ. Thứ ba, các trường đại học còn phải đối mặt với việc thu thập, xử lý, phân tích dữ liệu rất lớn về quá trình học tập của sinh viên để có thể đưa ra dự báo chính xác. Khái niệm sinh viên tốt nghiệp đúng hạn được sử dụng trong nghiên cứu này là sinh viên hoàn thành chương trình đào tạo đúng thời gian thiết kế của các chương trình đào tạo của các cơ sở giáo dục đại học. Sinh viên tốt nghiệp muộn là các sinh viên khi tốt nghiệp có thời gian học tập tại trường lớn hơn thời gian thiết kế dành cho chương trình đào tạo của các cơ sở giáo dục đại học. Sinh viên không đủ điều kiện tốt nghiệp là các sinh viên bị buộc thôi học do kết quả học tập kém trong quá trình đào tạo hoặc buộc thôi học do hết thời gian đào tạo mà chưa hoàn thành chương trình đào tạo và các điều kiện tốt nghiệp. Nghiên cứu này được thực hiện với kết cấu 5 phần là giới thiệu, tổng quan nghiên cứu, phương pháp nghiên cứu, kết quả và thảo luận, kết luận và một số kiến nghị. Nghiên cứu này tiến hành dựa trên các mô hình học máy với dữ liệu được thu thập từ các sinh viên chuyên ngành Ngân hàng tại Học viện Ngân hàng từ năm 2010- 2020 để thực hiện dự báo sinh viên tốt nghiệp đúng hạn. Kết quả của nghiên cứu đã xác định được mô hình học máy phù hợp và chỉ ra các thuộc tính Sử dụng các mô hình Machine Learning dự đoán tình trạng sinh viên tốt nghiệp đúng hạn54Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023 ảnh hưởng đến khả năng tốt nghiệp đúng hạn của sinh viên, từ đó xác định được các nhóm sinh viên có nguy cơ tốt nghiệp muộn và đề xuất các kiến nghị nhằm nâng cao tỷ lệ sinh viên tốt nghiệp đúng hạn. 2. Tổng quan nghiên cứu Trong những năm gần đây có nhiều nghiên cứu liên quan đến khai thác dữ liệu giáo dục để ứng dụng cho việc dự đoán hiệu quả học tập của sinh viên, dự đoán tỉ lệ bỏ học hay dự đoán nguy cơ sinh viên đang gặp khó khăn trong quá trình học. Phần này trình bày tổng quan các nghiên cứu nổi bật đã công bố trong giáo dục đại học bằng các kĩ thuật Machine Learning. Nghiên cứu Hussain, S., & cộng sự (2021) đã dự đoán kết quả học tập của sinh viên dựa trên thông tin cá nhân và thông tin kết quả học tập. Nghiên cứu đã chọn ra 30 trong số 126 thuộc tính sẽ ảnh hưởng đến kết quả dự đoán bằng thuật toán Di truyền. Sau đó, Random Forest (RF) và K-Nearest Neighbors (KNN) được sử dụng kết hợp đã cho ra kết quả tốt nhất, với độ chính xác 96,64%, Root Mean Squared Error (RMSE) 5,34. Tương tự, nghiên cứu của Jeslet, D. S. & cộng sự (2021) đã xây dựng một mô hình dự đoán kết quả của sinh viên năm cuối dựa trên kết quả học tập của các kì học trước đó bằng cách sử dụng KNN, Support Vector Machine (SVM) và Logistic Regression (LR). Dữ liệu được thu thập từ 1460 sinh viên từ các trường đại học khác nhau. Kết quả nghiên cứu đã chỉ ra SVM và LR là hai mô hình cho kết quả tốt nhất, với độ chính xác 99,72%. Theo Pallathadka và cộng sự (2021) đã dự đoán kết quả của khóa học sắp tới để phân loại sinh viên dựa trên các mô hình dự đoán khác nhau như Naive Bayes, ID3, C4.5 và SVM. Nghiên cứu đã sử dụng dữ liệu của 649 sinh viên đến từ Đại học Minho, Bồ Đào Nha. Kết quả theo mô hình SVM đã đạt hiệu quả dự đoán tốt nhất với độ chính xác 85%. Trong nghiên cứu của Bujang và cộng sự (2021) đã sử dụng các mô hình Machine Learning truyền thống như J48, Logistic Regression, Random Forest và SVM. Dữ liệu được thu thập từ 489 sinh viên khoa Công nghệ thông tin và Truyền thông thuộc Đại học Malaysia Polytechnic. Thực nghiệm này cho thấy J48 vượt trội so với các mô hình khác với độ chính xác 99,8%, RMSE 0,0238. Trong nghiên cứu của Al Mayahi & cộng sự (2020), các tác giả đã xây dựng một mô hình để dự đoán điểm của sinh viên trong một môn toán trong học kỳ thứ hai dựa trên điểm trước đây của họ ở trường và điểm của họ trong các khóa học trước đó của học kỳ đầu tiên bằng cách sử dụng SVM và Naive Bayes. Dữ liệu được thu thập từ 550 sinh viên thuộc Khoa Vật lí, Toán học, Khoa học và Khoa học máy tính thuộc Đại học Nizwa. SVM đã cho kết quả tốt nhất với độ chính xác 87%. Ngoài ra, có thể thấy rằng một số nghiên cứu trước đây không giải quyết được vấn đề mất cân bằng dữ liệu. Ploutz và cộng sự (2018) đã xây dựng một mô hình dự đoán tỷ lệ tốt nghiệp của sinh viên năm nhất tại Đại học Nevada, Las Vegas. Để giảm bớt tính nhiều chiều, tác giả đã thực hiện các kỹ thuật lựa chọn đặc trưng khác nhau như Chi square, tầm quan trọng của đặc trưng cây quyết định, loại bỏ đặc trưng đệ quy. SMOTE, ADASYN, ROS cũng được sử dụng để cân bằng các phiên bản phân phối của hai lớp. Dữ liệu được thu thập từ 16.074 sinh viên đã nhập học từ kì mùa thu 2010 đến kì mùa hè 2017. Kết quả cho thấy Decision Tree đã cho hiệu quả dự đoán tốt nhất, với điểm F1 là 85%. Trong nghiên cứu của A. Nabil và cộng sự (2021), các mô hình như DNN, DT, LR, SVM, RF, GB và KNN được sử dụng để dự đoán hiệu suất của học viên trong khóa học Cấu trúc dữ NGUYỄN VĂN THỦY55Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng liệu. Tác giả cũng đã áp dụng các phương pháp giúp giải quyết hiện tượng mất cân bằng mẫu bằng cách gia tăng kích thước mẫu thuộc nhóm thiểu số bằng các kĩ thuật khác nhau (Over sampling) như SMOTE, ADASYN, ROS, SMOTE- ENN để xử lý sự mất cân bằng phân phối mục tiêu. Dữ liệu được thu thập trong 14 năm từ năm 2006 tại một trường Đại học mở có chương trình học 4 năm dữ liệu bao gồm thông tin 4.266 sinh viên. Kết quả nghiên cứu cho thấy giải thuật cây quyết định (Decision Tree) kết hợp với SMOTE đã cho kết quả tốt nhất, với điểm F1 là 89%. Tại Việt Nam, có một số nghiên cứu về dự báo kết quả học tập của sinh viên dựa trên một số kỹ thuật học máy, học sâu. Nguyễn và cộng sự (2015) “đã dự báo kết quả học tập của học sinh dựa trên sự kết hợp phương pháp gần đúng Taylor với hai mô hình xám GM(1,1) và GM(2,1). Hai mô hình kết hợp T-GM(1,1) và T-GM(2,1) có thể đạt được các giá trị dự báo tối ưu nhất bằng cách tính gần đúng nhiều lần để cải thiện độ chính xác dự báo của hai mô hình xám. Kết quả đã hỗ trợ cho giáo viên tuyển chọn học sinh có quá trình học tập ổn định để bồi dưỡng học sinh giỏi, đồng thời cải thiện kết quả học tập đối với học sinh có quá trình học tập không ổn định nhằm đáp ứng các yêu cầu và mục tiêu của giáo dục”. Theo Lưu Hoài Sang và cộng sự (2020), bằng kỹ thuật học sâu thực nghiệm với mạng nơ-ron truyền thẳng đa tầng trên dữ liệu sinh viên 83.993 sinh viên Đại học Cần thơ, đã đưa ra một mô hình dự báo sớm kết quả học tập của sinh viên. Tác giả Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019) bằng hai thuật toán khai phá dữ liệu Logistic Regression, Naïve Bayes với dữ liệu 555 sinh viên ngành Công nghệ thông tin của Đại học Vinh đã được áp dụng để tìm ra mô hình tốt nhất cho việc dự báo tình trạng học tập cho sinh viên. Thông qua tổng quan các nghiên cứu có thể thấy các kỹ thuật học máy có thể phù hợp với mục tiêu nghiên cứu dự báo kết quả học tập của sinh viên nói chung và dự báo sinh viên tốt nghiệp đúng hạn nói riêng. Tùy từng đặc thù của từng bộ dữ liệu nghiên cứu thực nghiệm thì có các kỹ thuật học máy, học sâu phù hợp. Đã có nhiều nghiên cứu xác định các kỹ thuật học máy, học sâu để dự báo sinh viên tốt nghiệp đúng hạn như Hussain, S., & cộng sự (2021), Jeslet, D. S. & cộng sự (2021), Pallathadka và cộng sự (2021), Al Mayahi & cộng sự (2020), Ploutz và cộng sự (2018), Nguyễn và cộng sự (2015), Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019), Lưu Hoài Sang và cộng sự (2020). Tuy nhiên, hầu hết các nghiên cứu mới dừng lại ở các tập dữ liệu huấn luyện cho các mô hình học máy tương đối nhỏ, không gian của dữ liệu trong một thời gian ngắn và chưa chỉ ra các thuộc tính quan trọng trong tập dữ liệu ảnh hưởng đến kết quả dự báo. Độ chính xác của các mô hình dự báo thường có độ chính xác cao với các tập dữ liệu nhỏ và khi áp dụng với dữ liệu thực tế có độ phức tạp cao thì độ chính xác của mô hình ở mức thấp. Đây là khoảng trống nghiên cứu này thực hiện. Dựa trên dữ liệu thực tế của sinh viên chuyên ngành ngân hàng tại Học viện Ngân hàng giai đoạn 2010-2020, nghiên cứu tiến hành thực nghiệm trên các kỹ thuật học máy và lựa chọn mô hình tối ưu phù hợp, từ đó xác định các thuộc tính ảnh hưởng đến khả năng tốt nghiệp đúng hạn của sinh viên, từ đó xác định được các nhóm sinh viên có nguy cơ tốt nghiệp muộn. 3. Phương pháp nghiên cứu 3.1. Mô hình nghiên cứu Nghiên cứu tiến hành thực nghiệm trên 7 mô hình học máy là Logistic Regression (LR) Sử dụng các mô hình Machine Learning dự đoán tình trạng sinh viên tốt nghiệp đúng hạn56Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023 , K-Nearest Neighbors (KNN), Decision Tree (DT), Random Forest (RF), Support Vector Machine (SVM), (Ray, 2019), XGBoost, CatBoost (Prokhorenkova và cộng sự, 2018). Để đánh giá độ chính xác của các mô hình học máy, nghiên cứu sử dụng ma trận nhầm lẫn (Confusion matrix), Precision, Recall, đường cong AUC-ROC và F1 Score (Tharwat, A, 2021). Ma trận nhầm lẫn sử dụng trong các kỹ thuật phân lớp của các mô hình học máy là một ma trận tổng quát thể hiện kết quả phân loại đúng và kết quả phân loại sai được tạo ra bởi mô hình phân loại bằng cách so sánh với giá trị thật của biến mục tiêu của dữ liệu kiểm tra. Một tập dữ liệu thực tế có 2 lớp được gán nhãn là lớp dương (Positive) và lớp âm (Negative). Mô hình dự đoán phân lớp trên tập dữ liệu kết quả cũng phân thành 2 lớp: lớp dương (Positive) và lớp âm (Negative) (Bảng 1). Trong đó, TP (True Positive): Tổng số trường hợp thực tế và dự báo khớp mẫu lớp dương; TN (True Negative): Tổng số trường hợp thực tế và dự báo khớp mẫu lớp âm; FP (False Positive): Tổng số trường hợp dự báo các quan sát thực tế thuộc nhãn lớp âm thành lớp dương; FN (False Negative): Tổng số trường hợp dự báo các quan sát thực thuộc nhãn lớp dương thành lớp âm. Precision (Tỷ lệ lớp dương đoán đúng): Trong tất cả các dự đoán lớp dương (Positive) được đưa ra, bao nhiêu dự đoán là chính xác với công thức. Precision = TP / (TP + FP) Recall (Tỷ lệ lớp dương thực): Trong tất cả các trường hợp Positive, bao nhiêu trường hợp đã được dự đoán chính xác với công thức như sau: Recall = TP / (TP + FN) Accuracy (Độ chính xác) được tính như sau: Accuracy= (TP+TN) / (TP + TN + FP +FN) F1 là số dung hòa Recall và Precision giúp ta có căn cứ để lựa chọn mô hình tốt nhất. F1 càng cao mô hình càng tốt. F1 là chỉ số được tính như sau: F1 = (2 x Precision x Recall) / ( 2 x Precision + Recall ) Đường cong ROC (Receiver operating Bảng 1. Ma trận nhầm lẫn với tập dữ liệu có 2 lớp được gán nhãn Thực tế\Dự đoán Lớp dương Lớp âm Lớp dương TP FN Lớp âm FP TN Nguồn: Tharwat, A. (2021) Nguồn: Hand, D. J. (2009) Hình 1. Cách tính giá trị độ đo đánh giá mô hình phân lớp NGUYỄN VĂN THỦY57Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng characteristic): Thể hiện sự tương quan giữa Precision và Recall khi thay đổi giá trị ngưỡng (threshold). Đường cong Area Under the ROC (AUC- ROC): Là vùng nằm dưới ROC, vùng này càng lớn thì mô hình lựa chọn càng tốt (Hình 1). Các mô hình học máy được sử dụng trong nghiên cứu được tác giả thực hiện lập trình bằng ngôn ngữ Python để phân tích dữ liệu. 3.2. Dữ liệu nghiên cứu Dữ liệu được thu thập của 6.696 sinh viên Khoa Ngân hàng hệ đại học chính quy thuộc Học viện Ngân hàng, Hà Nội, Việt Nam thuộc các học kỳ năm học từ 2010- 2020. Dữ liệu bao gồm các thuộc tính về đặc điểm nhân khẩu học và các thông tin học thuật trong quá trình học của sinh viên. Dữ liệu được thu thập tổng hợp qua cơ sở dữ liệu phần mềm quản lý đào tạo của Học viện Ngân hàng (Học viện Ngân hàng, 2023). Đặc điểm nhân khẩu học của sinh viên, thông tin học thuật và chi tiết mô tả về các tính năng dữ liệu và loại dữ liệu bao gồm trong tập dữ liệu được liệt kê trong Bảng 2. Để tập dữ liệu được tạo sẵn sàng để phân tích, nghiên cứu đã tiến hành làm sạch, chuyển đổi, mã hóa dữ liệu. Với mục tiêu là dự đoán sinh viên tốt nghiệp đúng hạn hay quá hạn, trường dữ liệu “GradOnTime” được thêm vào bộ dữ liệu để theo dõi sinh viên tốt nghiệp đúng hạn hay không. Sinh viên được coi là tốt nghiệp đúng hạn khi tổng Bảng 2. Mô tả thông tin, loại dữ liệu của các thuộc tính dữ liệu Thuộc tính Loại dữ liệu Mô tả về thuộc tính StudentID Categorical (Phân loại) Mã số sinh viên: Mỗi sinh viên khi nhập học được gán 1 mã sinh viên. Mỗi mã sinh viên là duy nhất dùng để nhận dạng sinh viên trong mọi hoạt động học tập tại Học viện. Gender Categorical Giới tính – Phân loại: Nam/Nữ GroupID Categorical Đối tượng xét tuyển: Đối tượng xét tuyển «0», «1», «3», «4», «5», «6», «7»): Các hình thức xét tuyển theo tuyển thẳng, điểm học bạ, điểm thi THPT, xét chứng chỉ ngoại ngữ, xét chứng chỉ đánh giá năng lực, cử tuyển, hoặc các sinh viên gửi theo học (Sinh viên Lào hoặc các đối tượng quân sự gửi đào tạo) Region Categorical Khu vực: (“1”, “2”, “3”, “2NT”): Các khu vực tuyển sinh theo quy chế tuyển sinh của Bộ Giáo dục và Đào tạo AdmissionCode Categorical Khối xét tuyển: Khối xét tuyển (“A00”, “A01”, “D01”, “D07”, “C00”, “D09”): Các khối tuyển sinh của các ngành thuộc Học viện Ngân hàng theo quy chế tuyển sinh của Bộ Giáo dục và Đào tạo EntranceScore Numerical (số) Điểm trúng tuyển: Điểm thi trung học phổ thông của sinh viên khi xét tuyển vào Học viện Ngân hàng CreditsEarnned1 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ đầu tiên CreditsEarnned2 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ thứ 2 CreditsEarnned3 Numerical Tín chỉ tích lũ

Trang 1

Nguyễn Văn Thủy

Học viện Ngân hàng Ngày nhận: 02/03/2023 Ngày nhận bản sửa: 06/04/2023 Ngày duyệt đăng: 14/04/2023

Tóm tắt: Nghiên cứu nhằm thực hiện lựa chọn mô hình học máy (Machine

Learning) tối ưu để dự đoán tình trạng sinh viên tốt nghiệp đúng hạn Bằng

việc sử dụng tập dữ liệu của sinh viên chuyên ngành Ngân hàng của Học viện

Ngân hàng giai đoạn 2010- 2020, thông qua các mô hình học máy như Logistic

Regression, K-Nearest Neighbors, Decision Tree, Random Forest, Support

Vector Machine, XGBoost, CatBoost, nghiên cứu đã lựa chọn được mô hình

Random Forest là mô hình tối ưu nhất Nghiên cứu đã chỉ ra các thuộc tính

thông tin xử lý học vụ và điểm trung bình các học kỳ 1 đến 4 có tác động mạnh

đến khả năng tốt nghiệp đúng hạn, quá hạn của sinh viên từ đó đề xuất một

số khuyến nghị giúp cho Nhà trường đưa ra các giải pháp nâng cao tỷ lệ tốt

nghiệp của sinh viên.

Từ khóa: Dự báo kết quả học tập sinh viên, Học máy, Học sâu, Trí tuệ nhân tạo

Using Machine Learning models to predict the on-time graduation status of students

Abstract: The study aims to perform optimal Machine Learning model selection to predict the on-time

graduation status of students By using the dataset of students majoring in Banking faculty from the Banking Academy during the period of 2010-2020 through Machine Learning models such as Logistic Regression,

K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector Machine, XGBoost, and CatBoost, the

study has chosen Random Forest as the optimal model The research has identified 2 attributes: Academic

processing information and Grade Point Average (GPA) of semesters 1 through 4 have a strong impact on

the ability of students to graduate on time or late, and proposed some recommendations to help the school

provide solutions to improve the graduation rate of students.

Key words: Predicting student learning outcomes, Machine learning, Deep learning, artificial intelligence.

Doi: 10.59276/TCKHDT.2023.08.2506.

Nguyen, Van Thuy

Banking Academy of VietNam

Email: thuynv@hvnh.edu.vn

Trang 2

1 Giới thiệu

Giáo dục đại học có vai trò rất quan trọng

trong việc phát triển nguồn nhân lực chất

lượng cao Nó không chỉ cung cấp kiến

thức chuyên môn cho sinh viên, mà còn

trang bị các kỹ năng và phẩm chất cá nhân

để đáp ứng nhu cầu của xã hội và thị trường

lao động Các cơ sở giáo dục đại học thiết

kế các chương trình đào tạo từ 4-5 năm để

sinh viên có thể tích lũy đầy đủ các kiến

thức, kỹ năng, năng lực đáp ứng các nhu

cầu của xã hội Tuy nhiên theo VnExpress

(2022), thực tế tại các cơ sở giáo dục đại

học của Việt Nam nói riêng và trên thế giới

nói chung có một tỷ lệ không nhỏ từ

14-50% sinh viên tốt nghiệp muộn hoặc không

tốt nghiệp Điều này gây ra một sự lãng phí

nguồn lực vô cùng lớn cho xã hội Nguyên

nhân của tình trạng này đến từ cả phía chủ

quan và khách quan trong quá trình học

tập của sinh viên tại trường như lý do tâm

lý, hoàn cảnh gia đình, môi trường bạn bè,

phương pháp học tập đại học, không tập

trung trong quá trình học do môi trường

học tập của các cơ sở giáo dục đại học Gia

đình và nhà trường cần can thiệp sớm để

xác định các sinh viên có khả năng rơi vào

tình trạng tốt nghiệp muộn hoặc không đủ

điều kiện tốt nghiệp để có các biện pháp

hỗ trợ tích cực cho đối tượng này Dự đoán

sớm tình trạng, nguy cơ của sinh viên giúp

cho gia đình và nhà trường có được sự tư

vấn kịp thời đến sinh viên, giúp sinh viên

định hướng tốt nhất quá trình học tập,

hướng tới nâng cao hiệu quả học tập và

giảm thiểu tình trạng tốt nghiệp muộn hoặc

không tốt nghiệp được của sinh viên

Tuy nhiên việc dự báo sớm kết quả học tập

của sinh viên là một thách thức đối với các

trường đại học Các trường đại học đang

gặp khó khăn trong việc dự báo sớm kết

quả học tập của sinh viên do nhiều yếu tố

khác nhau Thứ nhất, mỗi sinh viên có nền

tảng học vấn, khả năng và hoàn cảnh khác nhau, làm cho việc dự báo trở nên phức tạp và khó chính xác tới từng cá nhân sinh viên Thứ hai, quá trình học tập của sinh viên là một quá trình dài, bao gồm nhiều yếu tố không chỉ liên quan đến khả năng học tập của sinh viên mà còn liên quan đến các yếu tố khác như tâm lý, xã hội, môi trường học tập và nhiều tác động khác từ môi trường khách quan Nhiều sinh viên có thể gặp khó khăn trong việc hòa nhập với môi trường học tập, gặp các vấn đề về sức khỏe hoặc tâm lý, gây ảnh hưởng đến quá trình học tập và kết quả học tập của họ Thứ

ba, các trường đại học còn phải đối mặt với việc thu thập, xử lý, phân tích dữ liệu rất lớn về quá trình học tập của sinh viên để có thể đưa ra dự báo chính xác

Khái niệm sinh viên tốt nghiệp đúng hạn được sử dụng trong nghiên cứu này là sinh viên hoàn thành chương trình đào tạo đúng thời gian thiết kế của các chương trình đào tạo của các cơ sở giáo dục đại học Sinh viên tốt nghiệp muộn là các sinh viên khi tốt nghiệp có thời gian học tập tại trường lớn hơn thời gian thiết kế dành cho chương trình đào tạo của các cơ sở giáo dục đại học Sinh viên không đủ điều kiện tốt nghiệp là các sinh viên bị buộc thôi học do kết quả học tập kém trong quá trình đào tạo hoặc buộc thôi học do hết thời gian đào tạo mà chưa hoàn thành chương trình đào tạo và các điều kiện tốt nghiệp Nghiên cứu này được thực hiện với kết cấu 5 phần là giới thiệu, tổng quan nghiên cứu, phương pháp nghiên cứu, kết quả và thảo luận, kết luận

và một số kiến nghị Nghiên cứu này tiến hành dựa trên các mô hình học máy với dữ liệu được thu thập từ các sinh viên chuyên ngành Ngân hàng tại Học viện Ngân hàng

từ năm 2010- 2020 để thực hiện dự báo sinh viên tốt nghiệp đúng hạn Kết quả của nghiên cứu đã xác định được mô hình học máy phù hợp và chỉ ra các thuộc tính

Trang 3

ảnh hưởng đến khả năng tốt nghiệp đúng

hạn của sinh viên, từ đó xác định được

các nhóm sinh viên có nguy cơ tốt nghiệp

muộn và đề xuất các kiến nghị nhằm nâng

cao tỷ lệ sinh viên tốt nghiệp đúng hạn

2 Tổng quan nghiên cứu

Trong những năm gần đây có nhiều nghiên

cứu liên quan đến khai thác dữ liệu giáo

dục để ứng dụng cho việc dự đoán hiệu quả

học tập của sinh viên, dự đoán tỉ lệ bỏ học

hay dự đoán nguy cơ sinh viên đang gặp

khó khăn trong quá trình học Phần này

trình bày tổng quan các nghiên cứu nổi bật

đã công bố trong giáo dục đại học bằng các

kĩ thuật Machine Learning

Nghiên cứu Hussain, S., & cộng sự (2021)

đã dự đoán kết quả học tập của sinh viên dựa

trên thông tin cá nhân và thông tin kết quả học

tập Nghiên cứu đã chọn ra 30 trong số 126

thuộc tính sẽ ảnh hưởng đến kết quả dự đoán

bằng thuật toán Di truyền Sau đó, Random

Forest (RF) và K-Nearest Neighbors (KNN)

được sử dụng kết hợp đã cho ra kết quả tốt

nhất, với độ chính xác 96,64%, Root Mean

Squared Error (RMSE) 5,34

Tương tự, nghiên cứu của Jeslet, D S &

cộng sự (2021) đã xây dựng một mô hình dự

đoán kết quả của sinh viên năm cuối dựa trên

kết quả học tập của các kì học trước đó bằng

cách sử dụng KNN, Support Vector Machine

(SVM) và Logistic Regression (LR) Dữ liệu

được thu thập từ 1460 sinh viên từ các trường

đại học khác nhau Kết quả nghiên cứu đã chỉ

ra SVM và LR là hai mô hình cho kết quả tốt

nhất, với độ chính xác 99,72%

Theo Pallathadka và cộng sự (2021) đã dự

đoán kết quả của khóa học sắp tới để phân

loại sinh viên dựa trên các mô hình dự đoán

khác nhau như Naive Bayes, ID3, C4.5 và

SVM Nghiên cứu đã sử dụng dữ liệu của

649 sinh viên đến từ Đại học Minho, Bồ Đào

Nha Kết quả theo mô hình SVM đã đạt hiệu

quả dự đoán tốt nhất với độ chính xác 85% Trong nghiên cứu của Bujang và cộng sự (2021) đã sử dụng các mô hình Machine Learning truyền thống như J48, Logistic Regression, Random Forest và SVM Dữ liệu được thu thập từ 489 sinh viên khoa Công nghệ thông tin và Truyền thông thuộc Đại học Malaysia Polytechnic Thực nghiệm này cho thấy J48 vượt trội so với các mô hình khác với độ chính xác 99,8%, RMSE 0,0238

Trong nghiên cứu của Al Mayahi & cộng

sự (2020), các tác giả đã xây dựng một mô hình để dự đoán điểm của sinh viên trong một môn toán trong học kỳ thứ hai dựa trên điểm trước đây của họ ở trường và điểm của họ trong các khóa học trước đó của học kỳ đầu tiên bằng cách sử dụng SVM

và Naive Bayes Dữ liệu được thu thập từ

550 sinh viên thuộc Khoa Vật lí, Toán học, Khoa học và Khoa học máy tính thuộc Đại học Nizwa SVM đã cho kết quả tốt nhất với độ chính xác 87%

Ngoài ra, có thể thấy rằng một số nghiên cứu trước đây không giải quyết được vấn

đề mất cân bằng dữ liệu Ploutz và cộng sự (2018) đã xây dựng một mô hình dự đoán

tỷ lệ tốt nghiệp của sinh viên năm nhất tại Đại học Nevada, Las Vegas Để giảm bớt tính nhiều chiều, tác giả đã thực hiện các kỹ thuật lựa chọn đặc trưng khác nhau như Chi square, tầm quan trọng của đặc trưng cây quyết định, loại bỏ đặc trưng đệ quy SMOTE, ADASYN, ROS cũng được

sử dụng để cân bằng các phiên bản phân phối của hai lớp Dữ liệu được thu thập từ 16.074 sinh viên đã nhập học từ kì mùa thu

2010 đến kì mùa hè 2017 Kết quả cho thấy Decision Tree đã cho hiệu quả dự đoán tốt nhất, với điểm F1 là 85% Trong nghiên cứu của A Nabil và cộng sự (2021), các

mô hình như DNN, DT, LR, SVM, RF, GB

và KNN được sử dụng để dự đoán hiệu suất của học viên trong khóa học Cấu trúc dữ

Trang 4

liệu Tác giả cũng đã áp dụng các phương

pháp giúp giải quyết hiện tượng mất cân

bằng mẫu bằng cách gia tăng kích thước

mẫu thuộc nhĩm thiểu số bằng các kĩ thuật

khác nhau (Over sampling) như SMOTE,

ADASYN, ROS, SMOTE- ENN để xử lý

sự mất cân bằng phân phối mục tiêu Dữ

liệu được thu thập trong 14 năm từ năm

2006 tại một trường Đại học mở cĩ chương

trình học 4 năm dữ liệu bao gồm thơng tin

4.266 sinh viên Kết quả nghiên cứu cho

thấy giải thuật cây quyết định (Decision

Tree) kết hợp với SMOTE đã cho kết quả

tốt nhất, với điểm F1 là 89%

Tại Việt Nam, cĩ một số nghiên cứu về dự

báo kết quả học tập của sinh viên dựa trên

một số kỹ thuật học máy, học sâu Nguyễn

và cộng sự (2015) “đã dự báo kết quả

học tập của học sinh dựa trên sự kết hợp

phương pháp gần đúng Taylor với hai mơ

hình xám GM(1,1) và GM(2,1) Hai mơ

hình kết hợp T-GM(1,1) và T-GM(2,1) cĩ

thể đạt được các giá trị dự báo tối ưu nhất

bằng cách tính gần đúng nhiều lần để cải

thiện độ chính xác dự báo của hai mơ hình

xám Kết quả đã hỗ trợ cho giáo viên tuyển

chọn học sinh cĩ quá trình học tập ổn định

để bồi dưỡng học sinh giỏi, đồng thời cải

thiện kết quả học tập đối với học sinh cĩ

quá trình học tập khơng ổn định nhằm đáp

ứng các yêu cầu và mục tiêu của giáo dục”

Theo Lưu Hồi Sang và cộng sự (2020),

bằng kỹ thuật học sâu thực nghiệm với

mạng nơ-ron truyền thẳng đa tầng trên dữ

liệu sinh viên 83.993 sinh viên Đại học Cần

thơ, đã đưa ra một mơ hình dự báo sớm kết

quả học tập của sinh viên Tác giả Nguyễn

Thị Uyên, Nguyễn Minh Tâm (2019) bằng

hai thuật tốn khai phá dữ liệu Logistic

Regression, Nạve Bayes với dữ liệu 555

sinh viên ngành Cơng nghệ thơng tin của

Đại học Vinh đã được áp dụng để tìm ra mơ

hình tốt nhất cho việc dự báo tình trạng học

tập cho sinh viên

Thơng qua tổng quan các nghiên cứu cĩ thể thấy các kỹ thuật học máy cĩ thể phù hợp với mục tiêu nghiên cứu dự báo kết quả học tập của sinh viên nĩi chung và dự báo sinh viên tốt nghiệp đúng hạn nĩi riêng Tùy từng đặc thù của từng bộ dữ liệu nghiên cứu thực nghiệm thì cĩ các kỹ thuật học máy, học sâu phù hợp Đã cĩ nhiều nghiên cứu xác định các kỹ thuật học máy, học sâu để dự báo sinh viên tốt nghiệp đúng hạn như Hussain, S., & cộng sự (2021), Jeslet, D S & cộng sự (2021), Pallathadka

và cộng sự (2021), Al Mayahi & cộng sự (2020), Ploutz và cộng sự (2018), Nguyễn

và cộng sự (2015), Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019), Lưu Hồi Sang

và cộng sự (2020) Tuy nhiên, hầu hết các nghiên cứu mới dừng lại ở các tập dữ liệu huấn luyện cho các mơ hình học máy tương đối nhỏ, khơng gian của dữ liệu trong một thời gian ngắn và chưa chỉ ra các thuộc tính quan trọng trong tập dữ liệu ảnh hưởng đến kết quả dự báo Độ chính xác của các mơ hình dự báo thường cĩ độ chính xác cao với các tập dữ liệu nhỏ và khi áp dụng với

dữ liệu thực tế cĩ độ phức tạp cao thì độ chính xác của mơ hình ở mức thấp Đây

là khoảng trống nghiên cứu này thực hiện Dựa trên dữ liệu thực tế của sinh viên chuyên ngành ngân hàng tại Học viện Ngân hàng giai đoạn 2010-2020, nghiên cứu tiến hành thực nghiệm trên các kỹ thuật học máy và lựa chọn mơ hình tối ưu phù hợp,

từ đĩ xác định các thuộc tính ảnh hưởng đến khả năng tốt nghiệp đúng hạn của sinh viên, từ đĩ xác định được các nhĩm sinh viên cĩ nguy cơ tốt nghiệp muộn

3 Phương pháp nghiên cứu

3.1 Mơ hình nghiên cứu

Nghiên cứu tiến hành thực nghiệm trên 7 mơ hình học máy là Logistic Regression (LR)

Trang 5

, K-Nearest Neighbors (KNN), Decision

Tree (DT), Random Forest (RF), Support

Vector Machine (SVM), (Ray, 2019),

XGBoost, CatBoost (Prokhorenkova và

cộng sự, 2018)

Để đánh giá độ chính xác của các mô hình

học máy, nghiên cứu sử dụng ma trận

nhầm lẫn (Confusion matrix), Precision,

Recall, đường cong AUC-ROC và F1

Score (Tharwat, A, 2021)

Ma trận nhầm lẫn sử dụng trong các kỹ

thuật phân lớp của các mô hình học máy là

một ma trận tổng quát thể hiện kết quả phân

loại đúng và kết quả phân loại sai được tạo

ra bởi mô hình phân loại bằng cách so sánh

với giá trị thật của biến mục tiêu của dữ

liệu kiểm tra Một tập dữ liệu thực tế có 2

lớp được gán nhãn là lớp dương (Positive)

và lớp âm (Negative) Mô hình dự đoán

phân lớp trên tập dữ liệu kết quả cũng phân

thành 2 lớp: lớp dương (Positive) và lớp

âm (Negative) (Bảng 1)

Trong đó, TP (True Positive): Tổng số

trường hợp thực tế và dự báo khớp mẫu lớp

dương; TN (True Negative): Tổng số trường

hợp thực tế và dự báo khớp mẫu lớp âm; FP

(False Positive): Tổng số trường hợp dự báo

các quan sát thực tế thuộc nhãn lớp âm thành

lớp dương; FN (False Negative): Tổng số

trường hợp dự báo các quan sát thực thuộc nhãn lớp dương thành lớp âm

Precision (Tỷ lệ lớp dương đoán đúng): Trong tất cả các dự đoán lớp dương (Positive) được đưa ra, bao nhiêu dự đoán

là chính xác với công thức

Precision = TP / (TP + FP) Recall (Tỷ lệ lớp dương thực): Trong tất cả các trường hợp Positive, bao nhiêu trường hợp đã được dự đoán chính xác với công thức như sau:

Recall = TP / (TP + FN) Accuracy (Độ chính xác) được tính như sau: Accuracy= (TP+TN) / (TP + TN + FP +FN) F1 là số dung hòa Recall và Precision giúp

ta có căn cứ để lựa chọn mô hình tốt nhất F1 càng cao mô hình càng tốt F1 là chỉ số được tính như sau:

F1 = (2 x Precision x Recall) / ( 2 x Precision + Recall )

Đường cong ROC (Receiver operating

Bảng 1 Ma trận nhầm lẫn với tập dữ liệu

có 2 lớp được gán nhãn

Thực tế\Dự đoán Lớp dương Lớp âm

Nguồn: Tharwat, A (2021)

Nguồn: Hand, D J (2009)

Hình 1 Cách tính giá trị độ đo đánh giá mô hình phân lớp

Trang 6

characteristic): Thể hiện sự tương quan

giữa Precision và Recall khi thay đổi giá trị

ngưỡng (threshold)

Đường cong Area Under the ROC

(AUC-ROC): Là vùng nằm dưới ROC, vùng này

càng lớn thì mô hình lựa chọn càng tốt

(Hình 1)

Các mô hình học máy được sử dụng trong

nghiên cứu được tác giả thực hiện lập trình

bằng ngôn ngữ Python để phân tích dữ liệu

3.2 Dữ liệu nghiên cứu

Dữ liệu được thu thập của 6.696 sinh viên

Khoa Ngân hàng hệ đại học chính quy

thuộc Học viện Ngân hàng, Hà Nội, Việt

Nam thuộc các học kỳ năm học từ

2010-2020 Dữ liệu bao gồm các thuộc tính về

đặc điểm nhân khẩu học và các thông tin học thuật trong quá trình học của sinh viên

Dữ liệu được thu thập tổng hợp qua cơ sở

dữ liệu phần mềm quản lý đào tạo của Học viện Ngân hàng (Học viện Ngân hàng, 2023) Đặc điểm nhân khẩu học của sinh viên, thông tin học thuật và chi tiết mô tả

về các tính năng dữ liệu và loại dữ liệu bao gồm trong tập dữ liệu được liệt kê trong Bảng 2

Để tập dữ liệu được tạo sẵn sàng để phân tích, nghiên cứu đã tiến hành làm sạch, chuyển đổi, mã hóa dữ liệu Với mục tiêu là dự đoán sinh viên tốt nghiệp đúng hạn hay quá hạn, trường dữ liệu “GradOnTime” được thêm vào bộ dữ liệu để theo dõi sinh viên tốt nghiệp đúng hạn hay không Sinh viên được coi là tốt nghiệp đúng hạn khi tổng

Bảng 2 Mô tả thông tin, loại dữ liệu của các thuộc tính dữ liệu

StudentID Categorical (Phân loại) Mã số sinh viên: Mỗi sinh viên khi nhập học được gán 1 mã sinh viên Mỗi mã sinh viên là duy nhất dùng để nhận dạng sinh viên trong mọi

hoạt động học tập tại Học viện.

Đối tượng xét tuyển: Đối tượng xét tuyển «0», «1», «3», «4», «5», «6»,

«7»): Các hình thức xét tuyển theo tuyển thẳng, điểm học bạ, điểm thi THPT, xét chứng chỉ ngoại ngữ, xét chứng chỉ đánh giá năng lực, cử tuyển, hoặc các sinh viên gửi theo học (Sinh viên Lào hoặc các đối

tượng quân sự gửi đào tạo) Region Categorical Khu vực: (“1”, “2”, “3”, “2NT”): Các khu vực tuyển sinh theo quy chế tuyển sinh của Bộ Giáo dục và Đào tạo AdmissionCode Categorical Khối xét tuyển: Khối xét tuyển (“A00”, “A01”, “D01”, “D07”, “C00”, “D09”): Các khối tuyển sinh của các ngành thuộc Học viện Ngân hàng theo

quy chế tuyển sinh của Bộ Giáo dục và Đào tạo EntranceScore Numerical (số) Điểm trúng tuyển: Điểm thi trung học phổ thông của sinh viên khi xét tuyển vào Học viện Ngân hàng CreditsEarnned1 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ đầu tiên

CreditsEarnned2 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ thứ 2

GPA1 Numerical Điểm trung bình học kỳ 1: Điểm trung bình tích lũy ở học kì đầu tiên (Điểm trung bình tích lũy là điểm trung bình theo trọng số các học

phần đã đạt của sinh viên tính đến thời điểm kết thúc học kỳ 1) GPA2 Numerical Điểm trung bình học kỳ 2: Điểm trung bình tích lũy ở học kì thứ 2

Trang 7

thời gian hoàn thành chương trình học nhỏ

hơn hoặc bằng 4 năm, lớn hơn 4 năm là tốt

nghiệp quá hạn Giá trị nhị phân của “1” sẽ

được chỉ định cho sinh viên tốt nghiệp đúng

hạn, và “0” được chỉ định cho những sinh

viên tốt nghiệp quá hạn Đối với các dữ liệu

của các biến độc lập để đưa vào mô hình dự

báo (StudentID, Major, Gender, GroupID,

Region, AdmissionCode, EntranceScore,

CreditsEarnned1, CreditsEarnned2,

CreditsEarnned3, CreditsEarnned4, GPA1,

GPA2, GPA3, GPA4, TermStatus1,

TermStatus2, TermStatus3, TermStatus4,

NoYearGrad) nghiên cứu đã tiến hành làm

sạch dữ liệu loại bỏ các dữ liệu khuyết

thiếu, mã hóa dữ liệu Kết quả nhận được

tập dữ liệu có 6.696 dòng và 21 thuộc tính đưa vào huấn luyện của các mô hình học máy đã lựa chọn Nghiên cứu thực hiện chia tập dữ liệu ban đầu thành 2 tập dữ liệu train/test (tập dữ liệu huấn luyện/ tập dữ liệu kiểm tra) theo tỷ lệ 80:20

Trong các tập dữ liệu có 86,96% là các dữ liệu được gán nhãn “Đúng hạn” và 13,04%

dữ liệu được gán nhãn “Quá hạn” (Hình 2)

Dữ liệu “Đúng hạn” mất cân bằng so với

dữ liệu “Quá hạn” do đó khi phân tích dữ liệu nghiên cứu sử dụng kỹ thuật SMOTE

để xử lý vấn đề mất cân bằng dữ liệu (Chawla và cộng sự (2002)) Kết thúc huấn luyện các mô hình, nghiên cứu sử dụng kỹ thuật LIME (Local Interpretable Model-Agnostic Explanations- Phép diễn giải cục

bộ cho mô hình bất khả tri) để phân tích mở rộng các kết quả

4 Kết quả nghiên cứu và thảo luận

Theo kết quả phân tích dữ liệu các mô hình

RF, XGBoost và CatBoost đạt được độ chính xác lần lượt là 92%, 89% và 89%, cao hơn so với các mô hình còn lại Mô hình RF đạt được giá trị 89% cho Precision, 94% Recall và 92% điểm F1, XGBoost đạt được giá trị 87% cho Precision, 91% Recall

và 89% điểm F1 Mô hình LR và SVC cho

TermStatus1 Categorical của sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 1Xử lí học vụ sau học kỳ đầu tiên: Các xử lý cảnh báo kết quả học tập TermStatus2 Categorical Xử lí học vụ sau học kỳ thứ 2: Các xử lý cảnh báo kết quả học tập của sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 2 TermStatus3 Categorical Xử lí học vụ sau học kỳ thứ 3: Các xử lý cảnh báo kết quả học tập của sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 3 TermStatus4 Categorical Xử lí học vụ sau học kỳ thứ 4: Các xử lý cảnh báo kết quả học tập của sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 4 NoYearGrad Numerical Tổng số thời gian để hoàn thành chương trình học (năm)

GradOnTime Numerical Tốt nghiệp đúng hạn: 1- Sinh viên tốt nghiệp đúng hạn; 0 – Sinh viên tốt nghiệp quá hạn.

Nguồn: Tác giả tổng hợp từ dữ liệu nghiên cứu

Hình 2 Tỉ lệ nhãn trong tập dữ liệu

Trang 8

thấy hiệu suất kém nhất và đạt được 80%

điểm F1 Mô hình RF đạt giá trị hiệu suất

mô tốt nhất và đạt 92% điểm F1 (Bảng 3)

Bảng 4 mô tả ma trận nhầm lẫn (Confusion matrix) của tất cả mô hình được quan sát

Mô hình RF có giá trị True Positive cao nhất với 45,49% Trong khi, các mô hình

LR và KNN lần lượt có sai lệch loại I và II cao nhất với 8,5% và 14,29%

Qua các phân tích ở phần trên, mô hình RF được lựa chọn để đưa ra dự đoán với các dữ liệu sinh viên tại Học viện Ngân hàng do hiệu suất dự đoán vượt trội hơn so với các

mô hình khác

Theo kết quả trên Hình 3 cho thấy các thuộc tính (feature) liên quan đến kết quả học tập trong quá trình đào tạo ảnh hưởng lớn đến khả năng tốt nghiệp của sinh viên, trong khi các thuộc tính liên quan đến nhân

Bảng 3 Kết quả hiệu suất các mô hình dự đoán

Mô hình Accuracy Precision Recall F1

Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu

Bảng 4 Ma trận nhầm lẫn (Confusion matrix) của các mô hình

g Mô hình CatBoost

Trang 9

khẩu học của sinh viên thì ảnh hưởng rất ít

đến nguy cơ tốt nghiệp muộn của sinh viên

Thuộc tính TermStatus4- thông tin xử lý

kết quả học vụ kỳ 4 đóng vai trò quan trọng

nhất, và giữ vai trò quan trọng hơn với

TermStatus1, TermStatus2, TermStatus3

là thông tin xử lí học vụ của kì 1, 2, 3

Tương tự với xử lí học vụ thì số lượng tín

chỉ tích lũy và điểm trung bình tích lũy các

học kỳ (GPA) cũng có quy luật như vậy

Kết quả này cho thấy kết quả học tập của

sinh viên ở học kỳ 4 (điểm trung bình tích

lũy, thông tin xử lý kết quả học vụ học kỳ)

đóng vai trò quan trọng nhất đến ảnh hưởng

đến khả năng tốt nghiệp đúng hạn của sinh

viên Đây là mốc thời điểm quan trọng của

sinh viên vì kết thúc năm thứ 2 là năm bản

lề của các chương trình đào tạo đại học 4

năm của Học viện Ngân hàng nói riêng và

của Việt Nam nói chung: là thời điểm kết

thúc các học phần đại cương và bắt đầu với

các khối kiến thức cơ sở ngành đồng thời

là thời điểm sinh viên đã đủ thời gian quen với môi trường giáo dục đại học; kết quả

và tiến độ học tập của sinh viên đã dần ổn định Đây là thời điểm quan trọng mà gia đình, nhà trường cần có sự quan tâm chú trọng đến sinh viên bên cạnh thời điểm bắt đầu học kỳ 1 và học kỳ 8 để giúp cho sinh viên định hướng chính xác lộ trình học đại học của mình từ đó thúc đẩy nâng cao tỷ lệ sinh viên tốt nghiệp đúng hạn

Mô hình RF áp dụng với dữ liệu thực nghiệm cho kết quả 64 cây quyết định (DT- Decision Tree) ảnh hưởng đến việc tốt nghiệp đúng hạn của sinh viên Hình 4 biểu diễn 1 cây quyết định trong các cây quyết định kết quả Các cây quyết định này cho thấy các quy luật ảnh hưởng đến kết quả tốt nghiệp đúng hạn của sinh viên được rút ra từ tập dữ liệu thực nghiệm

Để thực hiện phân tích sâu hơn tìm ra các thuộc tính ảnh hưởng đến mô hình

RF ra quyết định, nghiên cứu sử dụng kỹ

Hình 3 Độ quan trọng của các thuộc tính dự báo trong mô hình Random Forest

Trang 10

thuật LIME (Local Interpretable

Model-Agnostic Explanations- Phép diễn giải cục

bộ cho mô hình bất khả tri) Kỹ thuật LIME

của Ribeiro và cộng sự (2016) dùng để mô

tả kỹ thuật đưa ra một dự đoán tối ưu dựa

trên lựa chọn các thuộc tính cục bộ thay

cho toàn cục trên toàn bộ tập dữ liệu Bằng

cách tạo ra một loạt các giải thích cho biết

mỗi thuộc tính đóng góp như thế nào vào

kết quả dự đoán, LIME cung cấp một lời

giải thích cục bộ cũng như xác định tính năng nào sẽ có ảnh hưởng cao nhất đến kết quả dự đoán

Hình 5 cho thấy kết quả giải thích cho trường hợp mẫu “Đúng hạn” Theo Hình

5, xác suất dự đoán cho lớp “Đúng hạn” là 0,99 Ba thuộc tính ảnh hưởng lớn nhất đến

dự đoán (lớp “Đúng hạn”) và có ảnh hưởng đến dự đoán là GPA4, GPA3, và GPA2 Lớp “Đúng hạn” được hỗ trợ bởi GPA4 =

Hình 4 Kết quả 1 cây quyết định trong 64 cây quyết định kết quả của mô hình RF

Hình 5 Kết quả LIME giải thích mô hình RF bằng trường hợp tốt nghiệp đúng hạn trong

tập dữ liệu thử nghiệm

Tiêu đề	Sử Dụng Các Mô Hình Machine Learning Dự Đoán Tình Trạng Sinh Viên Tốt Nghiệp Đúng Hạn
Tác giả	Nguyễn Văn Thủy
Trường học	Học viện Ngân hàng
Chuyên ngành	Ngân hàng
Thể loại	bài báo
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	13
Dung lượng	0,96 MB