52Tạp chí Khoa học & Đào tạo Ngân hàng Số 255- Tháng 8. 2023 © Học viện Ngân hàng ISSN 1859 - 011X Sử dụng các mô hình Machine Learning dự đoán tình trạng sinh viên tốt nghiệp đúng hạn Nguyễn Văn Thủy Học viện Ngân hàng Ngày nhận: 02/03/2023 Ngày nhận bản sửa: 06/04/2023 Ngày duyệt đăng: 14/04/2023 Tóm tắt: Nghiên cứu nhằm thực hiện lựa chọn mô hình học máy (Machine Learning) tối ưu để dự đoán tình trạng sinh viên tốt nghiệp đúng hạn. Bằng việc sử dụng tập dữ liệu của sinh viên chuyên ngành Ngân hàng của Học viện Ngân hàng giai đoạn 2010- 2020, thông qua các mô hình học máy như Logistic Regression, K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector Machine, XGBoost, CatBoost, nghiên cứu đã lựa chọn được mô hình Random Forest là mô hình tối ưu nhất. Nghiên cứu đã chỉ ra các thuộc tính thông tin xử lý học vụ và điểm trung bình các học kỳ 1 đến 4 có tác động mạnh đến khả năng tốt nghiệp đúng hạn, quá hạn của sinh viên từ đó đề xuất một số khuyến nghị giúp cho Nhà trường đưa ra các giải pháp nâng cao tỷ lệ tốt nghiệp của sinh viên. Từ khóa: Dự báo kết quả học tập sinh viên, Học máy, Học sâu, Trí tuệ nhân tạo Using Machine Learning models to predict the on-time graduation status of students Abstract: The study aims to perform optimal Machine Learning model selection to predict the on-time graduation status of students. By using the dataset of students majoring in Banking faculty from the Banking Academy during the period of 2010-2020 through Machine Learning models such as Logistic Regression, K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector Machine, XGBoost, and CatBoost, the study has chosen Random Forest as the optimal model. The research has identified 2 attributes: Academic processing information and Grade Point Average (GPA) of semesters 1 through 4 have a strong impact on the ability of students to graduate on time or late, and proposed some recommendations to help the school provide solutions to improve the graduation rate of students. Key words: Predicting student learning outcomes, Machine learning, Deep learning, artificial intelligence. Doi: 10.59276/TCKHDT.2023.08.2506. Nguyen, Van Thuy Banking Academy of VietNam Email: thuynv@hvnh.edu.vn NGUYỄN VĂN THỦY53Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 1. Giới thiệu Giáo dục đại học có vai trò rất quan trọng trong việc phát triển nguồn nhân lực chất lượng cao. Nó không chỉ cung cấp kiến thức chuyên môn cho sinh viên, mà còn trang bị các kỹ năng và phẩm chất cá nhân để đáp ứng nhu cầu của xã hội và thị trường lao động. Các cơ sở giáo dục đại học thiết kế các chương trình đào tạo từ 4-5 năm để sinh viên có thể tích lũy đầy đủ các kiến thức, kỹ năng, năng lực đáp ứng các nhu cầu của xã hội. Tuy nhiên theo VnExpress (2022), thực tế tại các cơ sở giáo dục đại học của Việt Nam nói riêng và trên thế giới nói chung có một tỷ lệ không nhỏ từ 14- 50% sinh viên tốt nghiệp muộn hoặc không tốt nghiệp. Điều này gây ra một sự lãng phí nguồn lực vô cùng lớn cho xã hội. Nguyên nhân của tình trạng này đến từ cả phía chủ quan và khách quan trong quá trình học tập của sinh viên tại trường như lý do tâm lý, hoàn cảnh gia đình, môi trường bạn bè, phương pháp học tập đại học, không tập trung trong quá trình học do môi trường học tập của các cơ sở giáo dục đại học. Gia đình và nhà trường cần can thiệp sớm để xác định các sinh viên có khả năng rơi vào tình trạng tốt nghiệp muộn hoặc không đủ điều kiện tốt nghiệp để có các biện pháp hỗ trợ tích cực cho đối tượng này. Dự đoán sớm tình trạng, nguy cơ của sinh viên giúp cho gia đình và nhà trường có được sự tư vấn kịp thời đến sinh viên, giúp sinh viên định hướng tốt nhất quá trình học tập, hướng tới nâng cao hiệu quả học tập và giảm thiểu tình trạng tốt nghiệp muộn hoặc không tốt nghiệp được của sinh viên. Tuy nhiên việc dự báo sớm kết quả học tập của sinh viên là một thách thức đối với các trường đại học. Các trường đại học đang gặp khó khăn trong việc dự báo sớm kết quả học tập của sinh viên do nhiều yếu tố khác nhau. Thứ nhất, mỗi sinh viên có nền tảng học vấn, khả năng và hoàn cảnh khác nhau, làm cho việc dự báo trở nên phức tạp và khó chính xác tới từng cá nhân sinh viên. Thứ hai, quá trình học tập của sinh viên là một quá trình dài, bao gồm nhiều yếu tố không chỉ liên quan đến khả năng học tập của sinh viên mà còn liên quan đến các yếu tố khác như tâm lý, xã hội, môi trường học tập và nhiều tác động khác từ môi trường khách quan. Nhiều sinh viên có thể gặp khó khăn trong việc hòa nhập với môi trường học tập, gặp các vấn đề về sức khỏe hoặc tâm lý, gây ảnh hưởng đến quá trình học tập và kết quả học tập của họ. Thứ ba, các trường đại học còn phải đối mặt với việc thu thập, xử lý, phân tích dữ liệu rất lớn về quá trình học tập của sinh viên để có thể đưa ra dự báo chính xác. Khái niệm sinh viên tốt nghiệp đúng hạn được sử dụng trong nghiên cứu này là sinh viên hoàn thành chương trình đào tạo đúng thời gian thiết kế của các chương trình đào tạo của các cơ sở giáo dục đại học. Sinh viên tốt nghiệp muộn là các sinh viên khi tốt nghiệp có thời gian học tập tại trường lớn hơn thời gian thiết kế dành cho chương trình đào tạo của các cơ sở giáo dục đại học. Sinh viên không đủ điều kiện tốt nghiệp là các sinh viên bị buộc thôi học do kết quả học tập kém trong quá trình đào tạo hoặc buộc thôi học do hết thời gian đào tạo mà chưa hoàn thành chương trình đào tạo và các điều kiện tốt nghiệp. Nghiên cứu này được thực hiện với kết cấu 5 phần là giới thiệu, tổng quan nghiên cứu, phương pháp nghiên cứu, kết quả và thảo luận, kết luận và một số kiến nghị. Nghiên cứu này tiến hành dựa trên các mô hình học máy với dữ liệu được thu thập từ các sinh viên chuyên ngành Ngân hàng tại Học viện Ngân hàng từ năm 2010- 2020 để thực hiện dự báo sinh viên tốt nghiệp đúng hạn. Kết quả của nghiên cứu đã xác định được mô hình học máy phù hợp và chỉ ra các thuộc tính Sử dụng các mô hình Machine Learning dự đoán tình trạng sinh viên tốt nghiệp đúng hạn54Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023 ảnh hưởng đến khả năng tốt nghiệp đúng hạn của sinh viên, từ đó xác định được các nhóm sinh viên có nguy cơ tốt nghiệp muộn và đề xuất các kiến nghị nhằm nâng cao tỷ lệ sinh viên tốt nghiệp đúng hạn. 2. Tổng quan nghiên cứu Trong những năm gần đây có nhiều nghiên cứu liên quan đến khai thác dữ liệu giáo dục để ứng dụng cho việc dự đoán hiệu quả học tập của sinh viên, dự đoán tỉ lệ bỏ học hay dự đoán nguy cơ sinh viên đang gặp khó khăn trong quá trình học. Phần này trình bày tổng quan các nghiên cứu nổi bật đã công bố trong giáo dục đại học bằng các kĩ thuật Machine Learning. Nghiên cứu Hussain, S., & cộng sự (2021) đã dự đoán kết quả học tập của sinh viên dựa trên thông tin cá nhân và thông tin kết quả học tập. Nghiên cứu đã chọn ra 30 trong số 126 thuộc tính sẽ ảnh hưởng đến kết quả dự đoán bằng thuật toán Di truyền. Sau đó, Random Forest (RF) và K-Nearest Neighbors (KNN) được sử dụng kết hợp đã cho ra kết quả tốt nhất, với độ chính xác 96,64%, Root Mean Squared Error (RMSE) 5,34. Tương tự, nghiên cứu của Jeslet, D. S. & cộng sự (2021) đã xây dựng một mô hình dự đoán kết quả của sinh viên năm cuối dựa trên kết quả học tập của các kì học trước đó bằng cách sử dụng KNN, Support Vector Machine (SVM) và Logistic Regression (LR). Dữ liệu được thu thập từ 1460 sinh viên từ các trường đại học khác nhau. Kết quả nghiên cứu đã chỉ ra SVM và LR là hai mô hình cho kết quả tốt nhất, với độ chính xác 99,72%. Theo Pallathadka và cộng sự (2021) đã dự đoán kết quả của khóa học sắp tới để phân loại sinh viên dựa trên các mô hình dự đoán khác nhau như Naive Bayes, ID3, C4.5 và SVM. Nghiên cứu đã sử dụng dữ liệu của 649 sinh viên đến từ Đại học Minho, Bồ Đào Nha. Kết quả theo mô hình SVM đã đạt hiệu quả dự đoán tốt nhất với độ chính xác 85%. Trong nghiên cứu của Bujang và cộng sự (2021) đã sử dụng các mô hình Machine Learning truyền thống như J48, Logistic Regression, Random Forest và SVM. Dữ liệu được thu thập từ 489 sinh viên khoa Công nghệ thông tin và Truyền thông thuộc Đại học Malaysia Polytechnic. Thực nghiệm này cho thấy J48 vượt trội so với các mô hình khác với độ chính xác 99,8%, RMSE 0,0238. Trong nghiên cứu của Al Mayahi & cộng sự (2020), các tác giả đã xây dựng một mô hình để dự đoán điểm của sinh viên trong một môn toán trong học kỳ thứ hai dựa trên điểm trước đây của họ ở trường và điểm của họ trong các khóa học trước đó của học kỳ đầu tiên bằng cách sử dụng SVM và Naive Bayes. Dữ liệu được thu thập từ 550 sinh viên thuộc Khoa Vật lí, Toán học, Khoa học và Khoa học máy tính thuộc Đại học Nizwa. SVM đã cho kết quả tốt nhất với độ chính xác 87%. Ngoài ra, có thể thấy rằng một số nghiên cứu trước đây không giải quyết được vấn đề mất cân bằng dữ liệu. Ploutz và cộng sự (2018) đã xây dựng một mô hình dự đoán tỷ lệ tốt nghiệp của sinh viên năm nhất tại Đại học Nevada, Las Vegas. Để giảm bớt tính nhiều chiều, tác giả đã thực hiện các kỹ thuật lựa chọn đặc trưng khác nhau như Chi square, tầm quan trọng của đặc trưng cây quyết định, loại bỏ đặc trưng đệ quy. SMOTE, ADASYN, ROS cũng được sử dụng để cân bằng các phiên bản phân phối của hai lớp. Dữ liệu được thu thập từ 16.074 sinh viên đã nhập học từ kì mùa thu 2010 đến kì mùa hè 2017. Kết quả cho thấy Decision Tree đã cho hiệu quả dự đoán tốt nhất, với điểm F1 là 85%. Trong nghiên cứu của A. Nabil và cộng sự (2021), các mô hình như DNN, DT, LR, SVM, RF, GB và KNN được sử dụng để dự đoán hiệu suất của học viên trong khóa học Cấu trúc dữ NGUYỄN VĂN THỦY55Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng liệu. Tác giả cũng đã áp dụng các phương pháp giúp giải quyết hiện tượng mất cân bằng mẫu bằng cách gia tăng kích thước mẫu thuộc nhóm thiểu số bằng các kĩ thuật khác nhau (Over sampling) như SMOTE, ADASYN, ROS, SMOTE- ENN để xử lý sự mất cân bằng phân phối mục tiêu. Dữ liệu được thu thập trong 14 năm từ năm 2006 tại một trường Đại học mở có chương trình học 4 năm dữ liệu bao gồm thông tin 4.266 sinh viên. Kết quả nghiên cứu cho thấy giải thuật cây quyết định (Decision Tree) kết hợp với SMOTE đã cho kết quả tốt nhất, với điểm F1 là 89%. Tại Việt Nam, có một số nghiên cứu về dự báo kết quả học tập của sinh viên dựa trên một số kỹ thuật học máy, học sâu. Nguyễn và cộng sự (2015) “đã dự báo kết quả học tập của học sinh dựa trên sự kết hợp phương pháp gần đúng Taylor với hai mô hình xám GM(1,1) và GM(2,1). Hai mô hình kết hợp T-GM(1,1) và T-GM(2,1) có thể đạt được các giá trị dự báo tối ưu nhất bằng cách tính gần đúng nhiều lần để cải thiện độ chính xác dự báo của hai mô hình xám. Kết quả đã hỗ trợ cho giáo viên tuyển chọn học sinh có quá trình học tập ổn định để bồi dưỡng học sinh giỏi, đồng thời cải thiện kết quả học tập đối với học sinh có quá trình học tập không ổn định nhằm đáp ứng các yêu cầu và mục tiêu của giáo dục”. Theo Lưu Hoài Sang và cộng sự (2020), bằng kỹ thuật học sâu thực nghiệm với mạng nơ-ron truyền thẳng đa tầng trên dữ liệu sinh viên 83.993 sinh viên Đại học Cần thơ, đã đưa ra một mô hình dự báo sớm kết quả học tập của sinh viên. Tác giả Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019) bằng hai thuật toán khai phá dữ liệu Logistic Regression, Naïve Bayes với dữ liệu 555 sinh viên ngành Công nghệ thông tin của Đại học Vinh đã được áp dụng để tìm ra mô hình tốt nhất cho việc dự báo tình trạng học tập cho sinh viên. Thông qua tổng quan các nghiên cứu có thể thấy các kỹ thuật học máy có thể phù hợp với mục tiêu nghiên cứu dự báo kết quả học tập của sinh viên nói chung và dự báo sinh viên tốt nghiệp đúng hạn nói riêng. Tùy từng đặc thù của từng bộ dữ liệu nghiên cứu thực nghiệm thì có các kỹ thuật học máy, học sâu phù hợp. Đã có nhiều nghiên cứu xác định các kỹ thuật học máy, học sâu để dự báo sinh viên tốt nghiệp đúng hạn như Hussain, S., & cộng sự (2021), Jeslet, D. S. & cộng sự (2021), Pallathadka và cộng sự (2021), Al Mayahi & cộng sự (2020), Ploutz và cộng sự (2018), Nguyễn và cộng sự (2015), Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019), Lưu Hoài Sang và cộng sự (2020). Tuy nhiên, hầu hết các nghiên cứu mới dừng lại ở các tập dữ liệu huấn luyện cho các mô hình học máy tương đối nhỏ, không gian của dữ liệu trong một thời gian ngắn và chưa chỉ ra các thuộc tính quan trọng trong tập dữ liệu ảnh hưởng đến kết quả dự báo. Độ chính xác của các mô hình dự báo thường có độ chính xác cao với các tập dữ liệu nhỏ và khi áp dụng với dữ liệu thực tế có độ phức tạp cao thì độ chính xác của mô hình ở mức thấp. Đây là khoảng trống nghiên cứu này thực hiện. Dựa trên dữ liệu thực tế của sinh viên chuyên ngành ngân hàng tại Học viện Ngân hàng giai đoạn 2010-2020, nghiên cứu tiến hành thực nghiệm trên các kỹ thuật học máy và lựa chọn mô hình tối ưu phù hợp, từ đó xác định các thuộc tính ảnh hưởng đến khả năng tốt nghiệp đúng hạn của sinh viên, từ đó xác định được các nhóm sinh viên có nguy cơ tốt nghiệp muộn. 3. Phương pháp nghiên cứu 3.1. Mô hình nghiên cứu Nghiên cứu tiến hành thực nghiệm trên 7 mô hình học máy là Logistic Regression (LR) Sử dụng các mô hình Machine Learning dự đoán tình trạng sinh viên tốt nghiệp đúng hạn56Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023 , K-Nearest Neighbors (KNN), Decision Tree (DT), Random Forest (RF), Support Vector Machine (SVM), (Ray, 2019), XGBoost, CatBoost (Prokhorenkova và cộng sự, 2018). Để đánh giá độ chính xác của các mô hình học máy, nghiên cứu sử dụng ma trận nhầm lẫn (Confusion matrix), Precision, Recall, đường cong AUC-ROC và F1 Score (Tharwat, A, 2021). Ma trận nhầm lẫn sử dụng trong các kỹ thuật phân lớp của các mô hình học máy là một ma trận tổng quát thể hiện kết quả phân loại đúng và kết quả phân loại sai được tạo ra bởi mô hình phân loại bằng cách so sánh với giá trị thật của biến mục tiêu của dữ liệu kiểm tra. Một tập dữ liệu thực tế có 2 lớp được gán nhãn là lớp dương (Positive) và lớp âm (Negative). Mô hình dự đoán phân lớp trên tập dữ liệu kết quả cũng phân thành 2 lớp: lớp dương (Positive) và lớp âm (Negative) (Bảng 1). Trong đó, TP (True Positive): Tổng số trường hợp thực tế và dự báo khớp mẫu lớp dương; TN (True Negative): Tổng số trường hợp thực tế và dự báo khớp mẫu lớp âm; FP (False Positive): Tổng số trường hợp dự báo các quan sát thực tế thuộc nhãn lớp âm thành lớp dương; FN (False Negative): Tổng số trường hợp dự báo các quan sát thực thuộc nhãn lớp dương thành lớp âm. Precision (Tỷ lệ lớp dương đoán đúng): Trong tất cả các dự đoán lớp dương (Positive) được đưa ra, bao nhiêu dự đoán là chính xác với công thức. Precision = TP / (TP + FP) Recall (Tỷ lệ lớp dương thực): Trong tất cả các trường hợp Positive, bao nhiêu trường hợp đã được dự đoán chính xác với công thức như sau: Recall = TP / (TP + FN) Accuracy (Độ chính xác) được tính như sau: Accuracy= (TP+TN) / (TP + TN + FP +FN) F1 là số dung hòa Recall và Precision giúp ta có căn cứ để lựa chọn mô hình tốt nhất. F1 càng cao mô hình càng tốt. F1 là chỉ số được tính như sau: F1 = (2 x Precision x Recall) / ( 2 x Precision + Recall ) Đường cong ROC (Receiver operating Bảng 1. Ma trận nhầm lẫn với tập dữ liệu có 2 lớp được gán nhãn Thực tế\Dự đoán Lớp dương Lớp âm Lớp dương TP FN Lớp âm FP TN Nguồn: Tharwat, A. (2021) Nguồn: Hand, D. J. (2009) Hình 1. Cách tính giá trị độ đo đánh giá mô hình phân lớp NGUYỄN VĂN THỦY57Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng characteristic): Thể hiện sự tương quan giữa Precision và Recall khi thay đổi giá trị ngưỡng (threshold). Đường cong Area Under the ROC (AUC- ROC): Là vùng nằm dưới ROC, vùng này càng lớn thì mô hình lựa chọn càng tốt (Hình 1). Các mô hình học máy được sử dụng trong nghiên cứu được tác giả thực hiện lập trình bằng ngôn ngữ Python để phân tích dữ liệu. 3.2. Dữ liệu nghiên cứu Dữ liệu được thu thập của 6.696 sinh viên Khoa Ngân hàng hệ đại học chính quy thuộc Học viện Ngân hàng, Hà Nội, Việt Nam thuộc các học kỳ năm học từ 2010- 2020. Dữ liệu bao gồm các thuộc tính về đặc điểm nhân khẩu học và các thông tin học thuật trong quá trình học của sinh viên. Dữ liệu được thu thập tổng hợp qua cơ sở dữ liệu phần mềm quản lý đào tạo của Học viện Ngân hàng (Học viện Ngân hàng, 2023). Đặc điểm nhân khẩu học của sinh viên, thông tin học thuật và chi tiết mô tả về các tính năng dữ liệu và loại dữ liệu bao gồm trong tập dữ liệu được liệt kê trong Bảng 2. Để tập dữ liệu được tạo sẵn sàng để phân tích, nghiên cứu đã tiến hành làm sạch, chuyển đổi, mã hóa dữ liệu. Với mục tiêu là dự đoán sinh viên tốt nghiệp đúng hạn hay quá hạn, trường dữ liệu “GradOnTime” được thêm vào bộ dữ liệu để theo dõi sinh viên tốt nghiệp đúng hạn hay không. Sinh viên được coi là tốt nghiệp đúng hạn khi tổng Bảng 2. Mô tả thông tin, loại dữ liệu của các thuộc tính dữ liệu Thuộc tính Loại dữ liệu Mô tả về thuộc tính StudentID Categorical (Phân loại) Mã số sinh viên: Mỗi sinh viên khi nhập học được gán 1 mã sinh viên. Mỗi mã sinh viên là duy nhất dùng để nhận dạng sinh viên trong mọi hoạt động học tập tại Học viện. Gender Categorical Giới tính – Phân loại: Nam/Nữ GroupID Categorical Đối tượng xét tuyển: Đối tượng xét tuyển «0», «1», «3», «4», «5», «6», «7»): Các hình thức xét tuyển theo tuyển thẳng, điểm học bạ, điểm thi THPT, xét chứng chỉ ngoại ngữ, xét chứng chỉ đánh giá năng lực, cử tuyển, hoặc các sinh viên gửi theo học (Sinh viên Lào hoặc các đối tượng quân sự gửi đào tạo) Region Categorical Khu vực: (“1”, “2”, “3”, “2NT”): Các khu vực tuyển sinh theo quy chế tuyển sinh của Bộ Giáo dục và Đào tạo AdmissionCode Categorical Khối xét tuyển: Khối xét tuyển (“A00”, “A01”, “D01”, “D07”, “C00”, “D09”): Các khối tuyển sinh của các ngành thuộc Học viện Ngân hàng theo quy chế tuyển sinh của Bộ Giáo dục và Đào tạo EntranceScore Numerical (số) Điểm trúng tuyển: Điểm thi trung học phổ thông của sinh viên khi xét tuyển vào Học viện Ngân hàng CreditsEarnned1 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ đầu tiên CreditsEarnned2 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ thứ 2 CreditsEarnned3 Numerical Tín chỉ tích lũ
Trang 1Nguyễn Văn Thủy
Học viện Ngân hàng Ngày nhận: 02/03/2023 Ngày nhận bản sửa: 06/04/2023 Ngày duyệt đăng: 14/04/2023
Tóm tắt: Nghiên cứu nhằm thực hiện lựa chọn mô hình học máy (Machine
Learning) tối ưu để dự đoán tình trạng sinh viên tốt nghiệp đúng hạn Bằng
việc sử dụng tập dữ liệu của sinh viên chuyên ngành Ngân hàng của Học viện
Ngân hàng giai đoạn 2010- 2020, thông qua các mô hình học máy như Logistic
Regression, K-Nearest Neighbors, Decision Tree, Random Forest, Support
Vector Machine, XGBoost, CatBoost, nghiên cứu đã lựa chọn được mô hình
Random Forest là mô hình tối ưu nhất Nghiên cứu đã chỉ ra các thuộc tính
thông tin xử lý học vụ và điểm trung bình các học kỳ 1 đến 4 có tác động mạnh
đến khả năng tốt nghiệp đúng hạn, quá hạn của sinh viên từ đó đề xuất một
số khuyến nghị giúp cho Nhà trường đưa ra các giải pháp nâng cao tỷ lệ tốt
nghiệp của sinh viên.
Từ khóa: Dự báo kết quả học tập sinh viên, Học máy, Học sâu, Trí tuệ nhân tạo
Using Machine Learning models to predict the on-time graduation status of students
Abstract: The study aims to perform optimal Machine Learning model selection to predict the on-time
graduation status of students By using the dataset of students majoring in Banking faculty from the Banking Academy during the period of 2010-2020 through Machine Learning models such as Logistic Regression,
K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector Machine, XGBoost, and CatBoost, the
study has chosen Random Forest as the optimal model The research has identified 2 attributes: Academic
processing information and Grade Point Average (GPA) of semesters 1 through 4 have a strong impact on
the ability of students to graduate on time or late, and proposed some recommendations to help the school
provide solutions to improve the graduation rate of students.
Key words: Predicting student learning outcomes, Machine learning, Deep learning, artificial intelligence.
Doi: 10.59276/TCKHDT.2023.08.2506.
Nguyen, Van Thuy
Banking Academy of VietNam
Email: thuynv@hvnh.edu.vn
Trang 21 Giới thiệu
Giáo dục đại học có vai trò rất quan trọng
trong việc phát triển nguồn nhân lực chất
lượng cao Nó không chỉ cung cấp kiến
thức chuyên môn cho sinh viên, mà còn
trang bị các kỹ năng và phẩm chất cá nhân
để đáp ứng nhu cầu của xã hội và thị trường
lao động Các cơ sở giáo dục đại học thiết
kế các chương trình đào tạo từ 4-5 năm để
sinh viên có thể tích lũy đầy đủ các kiến
thức, kỹ năng, năng lực đáp ứng các nhu
cầu của xã hội Tuy nhiên theo VnExpress
(2022), thực tế tại các cơ sở giáo dục đại
học của Việt Nam nói riêng và trên thế giới
nói chung có một tỷ lệ không nhỏ từ
14-50% sinh viên tốt nghiệp muộn hoặc không
tốt nghiệp Điều này gây ra một sự lãng phí
nguồn lực vô cùng lớn cho xã hội Nguyên
nhân của tình trạng này đến từ cả phía chủ
quan và khách quan trong quá trình học
tập của sinh viên tại trường như lý do tâm
lý, hoàn cảnh gia đình, môi trường bạn bè,
phương pháp học tập đại học, không tập
trung trong quá trình học do môi trường
học tập của các cơ sở giáo dục đại học Gia
đình và nhà trường cần can thiệp sớm để
xác định các sinh viên có khả năng rơi vào
tình trạng tốt nghiệp muộn hoặc không đủ
điều kiện tốt nghiệp để có các biện pháp
hỗ trợ tích cực cho đối tượng này Dự đoán
sớm tình trạng, nguy cơ của sinh viên giúp
cho gia đình và nhà trường có được sự tư
vấn kịp thời đến sinh viên, giúp sinh viên
định hướng tốt nhất quá trình học tập,
hướng tới nâng cao hiệu quả học tập và
giảm thiểu tình trạng tốt nghiệp muộn hoặc
không tốt nghiệp được của sinh viên
Tuy nhiên việc dự báo sớm kết quả học tập
của sinh viên là một thách thức đối với các
trường đại học Các trường đại học đang
gặp khó khăn trong việc dự báo sớm kết
quả học tập của sinh viên do nhiều yếu tố
khác nhau Thứ nhất, mỗi sinh viên có nền
tảng học vấn, khả năng và hoàn cảnh khác nhau, làm cho việc dự báo trở nên phức tạp và khó chính xác tới từng cá nhân sinh viên Thứ hai, quá trình học tập của sinh viên là một quá trình dài, bao gồm nhiều yếu tố không chỉ liên quan đến khả năng học tập của sinh viên mà còn liên quan đến các yếu tố khác như tâm lý, xã hội, môi trường học tập và nhiều tác động khác từ môi trường khách quan Nhiều sinh viên có thể gặp khó khăn trong việc hòa nhập với môi trường học tập, gặp các vấn đề về sức khỏe hoặc tâm lý, gây ảnh hưởng đến quá trình học tập và kết quả học tập của họ Thứ
ba, các trường đại học còn phải đối mặt với việc thu thập, xử lý, phân tích dữ liệu rất lớn về quá trình học tập của sinh viên để có thể đưa ra dự báo chính xác
Khái niệm sinh viên tốt nghiệp đúng hạn được sử dụng trong nghiên cứu này là sinh viên hoàn thành chương trình đào tạo đúng thời gian thiết kế của các chương trình đào tạo của các cơ sở giáo dục đại học Sinh viên tốt nghiệp muộn là các sinh viên khi tốt nghiệp có thời gian học tập tại trường lớn hơn thời gian thiết kế dành cho chương trình đào tạo của các cơ sở giáo dục đại học Sinh viên không đủ điều kiện tốt nghiệp là các sinh viên bị buộc thôi học do kết quả học tập kém trong quá trình đào tạo hoặc buộc thôi học do hết thời gian đào tạo mà chưa hoàn thành chương trình đào tạo và các điều kiện tốt nghiệp Nghiên cứu này được thực hiện với kết cấu 5 phần là giới thiệu, tổng quan nghiên cứu, phương pháp nghiên cứu, kết quả và thảo luận, kết luận
và một số kiến nghị Nghiên cứu này tiến hành dựa trên các mô hình học máy với dữ liệu được thu thập từ các sinh viên chuyên ngành Ngân hàng tại Học viện Ngân hàng
từ năm 2010- 2020 để thực hiện dự báo sinh viên tốt nghiệp đúng hạn Kết quả của nghiên cứu đã xác định được mô hình học máy phù hợp và chỉ ra các thuộc tính
Trang 3ảnh hưởng đến khả năng tốt nghiệp đúng
hạn của sinh viên, từ đó xác định được
các nhóm sinh viên có nguy cơ tốt nghiệp
muộn và đề xuất các kiến nghị nhằm nâng
cao tỷ lệ sinh viên tốt nghiệp đúng hạn
2 Tổng quan nghiên cứu
Trong những năm gần đây có nhiều nghiên
cứu liên quan đến khai thác dữ liệu giáo
dục để ứng dụng cho việc dự đoán hiệu quả
học tập của sinh viên, dự đoán tỉ lệ bỏ học
hay dự đoán nguy cơ sinh viên đang gặp
khó khăn trong quá trình học Phần này
trình bày tổng quan các nghiên cứu nổi bật
đã công bố trong giáo dục đại học bằng các
kĩ thuật Machine Learning
Nghiên cứu Hussain, S., & cộng sự (2021)
đã dự đoán kết quả học tập của sinh viên dựa
trên thông tin cá nhân và thông tin kết quả học
tập Nghiên cứu đã chọn ra 30 trong số 126
thuộc tính sẽ ảnh hưởng đến kết quả dự đoán
bằng thuật toán Di truyền Sau đó, Random
Forest (RF) và K-Nearest Neighbors (KNN)
được sử dụng kết hợp đã cho ra kết quả tốt
nhất, với độ chính xác 96,64%, Root Mean
Squared Error (RMSE) 5,34
Tương tự, nghiên cứu của Jeslet, D S &
cộng sự (2021) đã xây dựng một mô hình dự
đoán kết quả của sinh viên năm cuối dựa trên
kết quả học tập của các kì học trước đó bằng
cách sử dụng KNN, Support Vector Machine
(SVM) và Logistic Regression (LR) Dữ liệu
được thu thập từ 1460 sinh viên từ các trường
đại học khác nhau Kết quả nghiên cứu đã chỉ
ra SVM và LR là hai mô hình cho kết quả tốt
nhất, với độ chính xác 99,72%
Theo Pallathadka và cộng sự (2021) đã dự
đoán kết quả của khóa học sắp tới để phân
loại sinh viên dựa trên các mô hình dự đoán
khác nhau như Naive Bayes, ID3, C4.5 và
SVM Nghiên cứu đã sử dụng dữ liệu của
649 sinh viên đến từ Đại học Minho, Bồ Đào
Nha Kết quả theo mô hình SVM đã đạt hiệu
quả dự đoán tốt nhất với độ chính xác 85% Trong nghiên cứu của Bujang và cộng sự (2021) đã sử dụng các mô hình Machine Learning truyền thống như J48, Logistic Regression, Random Forest và SVM Dữ liệu được thu thập từ 489 sinh viên khoa Công nghệ thông tin và Truyền thông thuộc Đại học Malaysia Polytechnic Thực nghiệm này cho thấy J48 vượt trội so với các mô hình khác với độ chính xác 99,8%, RMSE 0,0238
Trong nghiên cứu của Al Mayahi & cộng
sự (2020), các tác giả đã xây dựng một mô hình để dự đoán điểm của sinh viên trong một môn toán trong học kỳ thứ hai dựa trên điểm trước đây của họ ở trường và điểm của họ trong các khóa học trước đó của học kỳ đầu tiên bằng cách sử dụng SVM
và Naive Bayes Dữ liệu được thu thập từ
550 sinh viên thuộc Khoa Vật lí, Toán học, Khoa học và Khoa học máy tính thuộc Đại học Nizwa SVM đã cho kết quả tốt nhất với độ chính xác 87%
Ngoài ra, có thể thấy rằng một số nghiên cứu trước đây không giải quyết được vấn
đề mất cân bằng dữ liệu Ploutz và cộng sự (2018) đã xây dựng một mô hình dự đoán
tỷ lệ tốt nghiệp của sinh viên năm nhất tại Đại học Nevada, Las Vegas Để giảm bớt tính nhiều chiều, tác giả đã thực hiện các kỹ thuật lựa chọn đặc trưng khác nhau như Chi square, tầm quan trọng của đặc trưng cây quyết định, loại bỏ đặc trưng đệ quy SMOTE, ADASYN, ROS cũng được
sử dụng để cân bằng các phiên bản phân phối của hai lớp Dữ liệu được thu thập từ 16.074 sinh viên đã nhập học từ kì mùa thu
2010 đến kì mùa hè 2017 Kết quả cho thấy Decision Tree đã cho hiệu quả dự đoán tốt nhất, với điểm F1 là 85% Trong nghiên cứu của A Nabil và cộng sự (2021), các
mô hình như DNN, DT, LR, SVM, RF, GB
và KNN được sử dụng để dự đoán hiệu suất của học viên trong khóa học Cấu trúc dữ
Trang 4liệu Tác giả cũng đã áp dụng các phương
pháp giúp giải quyết hiện tượng mất cân
bằng mẫu bằng cách gia tăng kích thước
mẫu thuộc nhĩm thiểu số bằng các kĩ thuật
khác nhau (Over sampling) như SMOTE,
ADASYN, ROS, SMOTE- ENN để xử lý
sự mất cân bằng phân phối mục tiêu Dữ
liệu được thu thập trong 14 năm từ năm
2006 tại một trường Đại học mở cĩ chương
trình học 4 năm dữ liệu bao gồm thơng tin
4.266 sinh viên Kết quả nghiên cứu cho
thấy giải thuật cây quyết định (Decision
Tree) kết hợp với SMOTE đã cho kết quả
tốt nhất, với điểm F1 là 89%
Tại Việt Nam, cĩ một số nghiên cứu về dự
báo kết quả học tập của sinh viên dựa trên
một số kỹ thuật học máy, học sâu Nguyễn
và cộng sự (2015) “đã dự báo kết quả
học tập của học sinh dựa trên sự kết hợp
phương pháp gần đúng Taylor với hai mơ
hình xám GM(1,1) và GM(2,1) Hai mơ
hình kết hợp T-GM(1,1) và T-GM(2,1) cĩ
thể đạt được các giá trị dự báo tối ưu nhất
bằng cách tính gần đúng nhiều lần để cải
thiện độ chính xác dự báo của hai mơ hình
xám Kết quả đã hỗ trợ cho giáo viên tuyển
chọn học sinh cĩ quá trình học tập ổn định
để bồi dưỡng học sinh giỏi, đồng thời cải
thiện kết quả học tập đối với học sinh cĩ
quá trình học tập khơng ổn định nhằm đáp
ứng các yêu cầu và mục tiêu của giáo dục”
Theo Lưu Hồi Sang và cộng sự (2020),
bằng kỹ thuật học sâu thực nghiệm với
mạng nơ-ron truyền thẳng đa tầng trên dữ
liệu sinh viên 83.993 sinh viên Đại học Cần
thơ, đã đưa ra một mơ hình dự báo sớm kết
quả học tập của sinh viên Tác giả Nguyễn
Thị Uyên, Nguyễn Minh Tâm (2019) bằng
hai thuật tốn khai phá dữ liệu Logistic
Regression, Nạve Bayes với dữ liệu 555
sinh viên ngành Cơng nghệ thơng tin của
Đại học Vinh đã được áp dụng để tìm ra mơ
hình tốt nhất cho việc dự báo tình trạng học
tập cho sinh viên
Thơng qua tổng quan các nghiên cứu cĩ thể thấy các kỹ thuật học máy cĩ thể phù hợp với mục tiêu nghiên cứu dự báo kết quả học tập của sinh viên nĩi chung và dự báo sinh viên tốt nghiệp đúng hạn nĩi riêng Tùy từng đặc thù của từng bộ dữ liệu nghiên cứu thực nghiệm thì cĩ các kỹ thuật học máy, học sâu phù hợp Đã cĩ nhiều nghiên cứu xác định các kỹ thuật học máy, học sâu để dự báo sinh viên tốt nghiệp đúng hạn như Hussain, S., & cộng sự (2021), Jeslet, D S & cộng sự (2021), Pallathadka
và cộng sự (2021), Al Mayahi & cộng sự (2020), Ploutz và cộng sự (2018), Nguyễn
và cộng sự (2015), Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019), Lưu Hồi Sang
và cộng sự (2020) Tuy nhiên, hầu hết các nghiên cứu mới dừng lại ở các tập dữ liệu huấn luyện cho các mơ hình học máy tương đối nhỏ, khơng gian của dữ liệu trong một thời gian ngắn và chưa chỉ ra các thuộc tính quan trọng trong tập dữ liệu ảnh hưởng đến kết quả dự báo Độ chính xác của các mơ hình dự báo thường cĩ độ chính xác cao với các tập dữ liệu nhỏ và khi áp dụng với
dữ liệu thực tế cĩ độ phức tạp cao thì độ chính xác của mơ hình ở mức thấp Đây
là khoảng trống nghiên cứu này thực hiện Dựa trên dữ liệu thực tế của sinh viên chuyên ngành ngân hàng tại Học viện Ngân hàng giai đoạn 2010-2020, nghiên cứu tiến hành thực nghiệm trên các kỹ thuật học máy và lựa chọn mơ hình tối ưu phù hợp,
từ đĩ xác định các thuộc tính ảnh hưởng đến khả năng tốt nghiệp đúng hạn của sinh viên, từ đĩ xác định được các nhĩm sinh viên cĩ nguy cơ tốt nghiệp muộn
3 Phương pháp nghiên cứu
3.1 Mơ hình nghiên cứu
Nghiên cứu tiến hành thực nghiệm trên 7 mơ hình học máy là Logistic Regression (LR)
Trang 5, K-Nearest Neighbors (KNN), Decision
Tree (DT), Random Forest (RF), Support
Vector Machine (SVM), (Ray, 2019),
XGBoost, CatBoost (Prokhorenkova và
cộng sự, 2018)
Để đánh giá độ chính xác của các mô hình
học máy, nghiên cứu sử dụng ma trận
nhầm lẫn (Confusion matrix), Precision,
Recall, đường cong AUC-ROC và F1
Score (Tharwat, A, 2021)
Ma trận nhầm lẫn sử dụng trong các kỹ
thuật phân lớp của các mô hình học máy là
một ma trận tổng quát thể hiện kết quả phân
loại đúng và kết quả phân loại sai được tạo
ra bởi mô hình phân loại bằng cách so sánh
với giá trị thật của biến mục tiêu của dữ
liệu kiểm tra Một tập dữ liệu thực tế có 2
lớp được gán nhãn là lớp dương (Positive)
và lớp âm (Negative) Mô hình dự đoán
phân lớp trên tập dữ liệu kết quả cũng phân
thành 2 lớp: lớp dương (Positive) và lớp
âm (Negative) (Bảng 1)
Trong đó, TP (True Positive): Tổng số
trường hợp thực tế và dự báo khớp mẫu lớp
dương; TN (True Negative): Tổng số trường
hợp thực tế và dự báo khớp mẫu lớp âm; FP
(False Positive): Tổng số trường hợp dự báo
các quan sát thực tế thuộc nhãn lớp âm thành
lớp dương; FN (False Negative): Tổng số
trường hợp dự báo các quan sát thực thuộc nhãn lớp dương thành lớp âm
Precision (Tỷ lệ lớp dương đoán đúng): Trong tất cả các dự đoán lớp dương (Positive) được đưa ra, bao nhiêu dự đoán
là chính xác với công thức
Precision = TP / (TP + FP) Recall (Tỷ lệ lớp dương thực): Trong tất cả các trường hợp Positive, bao nhiêu trường hợp đã được dự đoán chính xác với công thức như sau:
Recall = TP / (TP + FN) Accuracy (Độ chính xác) được tính như sau: Accuracy= (TP+TN) / (TP + TN + FP +FN) F1 là số dung hòa Recall và Precision giúp
ta có căn cứ để lựa chọn mô hình tốt nhất F1 càng cao mô hình càng tốt F1 là chỉ số được tính như sau:
F1 = (2 x Precision x Recall) / ( 2 x Precision + Recall )
Đường cong ROC (Receiver operating
Bảng 1 Ma trận nhầm lẫn với tập dữ liệu
có 2 lớp được gán nhãn
Thực tế\Dự đoán Lớp dương Lớp âm
Nguồn: Tharwat, A (2021)
Nguồn: Hand, D J (2009)
Hình 1 Cách tính giá trị độ đo đánh giá mô hình phân lớp
Trang 6characteristic): Thể hiện sự tương quan
giữa Precision và Recall khi thay đổi giá trị
ngưỡng (threshold)
Đường cong Area Under the ROC
(AUC-ROC): Là vùng nằm dưới ROC, vùng này
càng lớn thì mô hình lựa chọn càng tốt
(Hình 1)
Các mô hình học máy được sử dụng trong
nghiên cứu được tác giả thực hiện lập trình
bằng ngôn ngữ Python để phân tích dữ liệu
3.2 Dữ liệu nghiên cứu
Dữ liệu được thu thập của 6.696 sinh viên
Khoa Ngân hàng hệ đại học chính quy
thuộc Học viện Ngân hàng, Hà Nội, Việt
Nam thuộc các học kỳ năm học từ
2010-2020 Dữ liệu bao gồm các thuộc tính về
đặc điểm nhân khẩu học và các thông tin học thuật trong quá trình học của sinh viên
Dữ liệu được thu thập tổng hợp qua cơ sở
dữ liệu phần mềm quản lý đào tạo của Học viện Ngân hàng (Học viện Ngân hàng, 2023) Đặc điểm nhân khẩu học của sinh viên, thông tin học thuật và chi tiết mô tả
về các tính năng dữ liệu và loại dữ liệu bao gồm trong tập dữ liệu được liệt kê trong Bảng 2
Để tập dữ liệu được tạo sẵn sàng để phân tích, nghiên cứu đã tiến hành làm sạch, chuyển đổi, mã hóa dữ liệu Với mục tiêu là dự đoán sinh viên tốt nghiệp đúng hạn hay quá hạn, trường dữ liệu “GradOnTime” được thêm vào bộ dữ liệu để theo dõi sinh viên tốt nghiệp đúng hạn hay không Sinh viên được coi là tốt nghiệp đúng hạn khi tổng
Bảng 2 Mô tả thông tin, loại dữ liệu của các thuộc tính dữ liệu
StudentID Categorical (Phân loại) Mã số sinh viên: Mỗi sinh viên khi nhập học được gán 1 mã sinh viên Mỗi mã sinh viên là duy nhất dùng để nhận dạng sinh viên trong mọi
hoạt động học tập tại Học viện.
Đối tượng xét tuyển: Đối tượng xét tuyển «0», «1», «3», «4», «5», «6»,
«7»): Các hình thức xét tuyển theo tuyển thẳng, điểm học bạ, điểm thi THPT, xét chứng chỉ ngoại ngữ, xét chứng chỉ đánh giá năng lực, cử tuyển, hoặc các sinh viên gửi theo học (Sinh viên Lào hoặc các đối
tượng quân sự gửi đào tạo) Region Categorical Khu vực: (“1”, “2”, “3”, “2NT”): Các khu vực tuyển sinh theo quy chế tuyển sinh của Bộ Giáo dục và Đào tạo AdmissionCode Categorical Khối xét tuyển: Khối xét tuyển (“A00”, “A01”, “D01”, “D07”, “C00”, “D09”): Các khối tuyển sinh của các ngành thuộc Học viện Ngân hàng theo
quy chế tuyển sinh của Bộ Giáo dục và Đào tạo EntranceScore Numerical (số) Điểm trúng tuyển: Điểm thi trung học phổ thông của sinh viên khi xét tuyển vào Học viện Ngân hàng CreditsEarnned1 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ đầu tiên
CreditsEarnned2 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ thứ 2
CreditsEarnned3 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ thứ 3
CreditsEarnned4 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ thứ 4
GPA1 Numerical Điểm trung bình học kỳ 1: Điểm trung bình tích lũy ở học kì đầu tiên (Điểm trung bình tích lũy là điểm trung bình theo trọng số các học
phần đã đạt của sinh viên tính đến thời điểm kết thúc học kỳ 1) GPA2 Numerical Điểm trung bình học kỳ 2: Điểm trung bình tích lũy ở học kì thứ 2
Trang 7thời gian hoàn thành chương trình học nhỏ
hơn hoặc bằng 4 năm, lớn hơn 4 năm là tốt
nghiệp quá hạn Giá trị nhị phân của “1” sẽ
được chỉ định cho sinh viên tốt nghiệp đúng
hạn, và “0” được chỉ định cho những sinh
viên tốt nghiệp quá hạn Đối với các dữ liệu
của các biến độc lập để đưa vào mô hình dự
báo (StudentID, Major, Gender, GroupID,
Region, AdmissionCode, EntranceScore,
CreditsEarnned1, CreditsEarnned2,
CreditsEarnned3, CreditsEarnned4, GPA1,
GPA2, GPA3, GPA4, TermStatus1,
TermStatus2, TermStatus3, TermStatus4,
NoYearGrad) nghiên cứu đã tiến hành làm
sạch dữ liệu loại bỏ các dữ liệu khuyết
thiếu, mã hóa dữ liệu Kết quả nhận được
tập dữ liệu có 6.696 dòng và 21 thuộc tính đưa vào huấn luyện của các mô hình học máy đã lựa chọn Nghiên cứu thực hiện chia tập dữ liệu ban đầu thành 2 tập dữ liệu train/test (tập dữ liệu huấn luyện/ tập dữ liệu kiểm tra) theo tỷ lệ 80:20
Trong các tập dữ liệu có 86,96% là các dữ liệu được gán nhãn “Đúng hạn” và 13,04%
dữ liệu được gán nhãn “Quá hạn” (Hình 2)
Dữ liệu “Đúng hạn” mất cân bằng so với
dữ liệu “Quá hạn” do đó khi phân tích dữ liệu nghiên cứu sử dụng kỹ thuật SMOTE
để xử lý vấn đề mất cân bằng dữ liệu (Chawla và cộng sự (2002)) Kết thúc huấn luyện các mô hình, nghiên cứu sử dụng kỹ thuật LIME (Local Interpretable Model-Agnostic Explanations- Phép diễn giải cục
bộ cho mô hình bất khả tri) để phân tích mở rộng các kết quả
4 Kết quả nghiên cứu và thảo luận
Theo kết quả phân tích dữ liệu các mô hình
RF, XGBoost và CatBoost đạt được độ chính xác lần lượt là 92%, 89% và 89%, cao hơn so với các mô hình còn lại Mô hình RF đạt được giá trị 89% cho Precision, 94% Recall và 92% điểm F1, XGBoost đạt được giá trị 87% cho Precision, 91% Recall
và 89% điểm F1 Mô hình LR và SVC cho
TermStatus1 Categorical của sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 1Xử lí học vụ sau học kỳ đầu tiên: Các xử lý cảnh báo kết quả học tập TermStatus2 Categorical Xử lí học vụ sau học kỳ thứ 2: Các xử lý cảnh báo kết quả học tập của sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 2 TermStatus3 Categorical Xử lí học vụ sau học kỳ thứ 3: Các xử lý cảnh báo kết quả học tập của sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 3 TermStatus4 Categorical Xử lí học vụ sau học kỳ thứ 4: Các xử lý cảnh báo kết quả học tập của sinh viên, buộc thôi học, hoặc các xử lý học vụ khác trong học kỳ 4 NoYearGrad Numerical Tổng số thời gian để hoàn thành chương trình học (năm)
GradOnTime Numerical Tốt nghiệp đúng hạn: 1- Sinh viên tốt nghiệp đúng hạn; 0 – Sinh viên tốt nghiệp quá hạn.
Nguồn: Tác giả tổng hợp từ dữ liệu nghiên cứu
Nguồn: Tác giả tổng hợp từ dữ liệu nghiên cứu
Hình 2 Tỉ lệ nhãn trong tập dữ liệu
Trang 8thấy hiệu suất kém nhất và đạt được 80%
điểm F1 Mô hình RF đạt giá trị hiệu suất
mô tốt nhất và đạt 92% điểm F1 (Bảng 3)
Bảng 4 mô tả ma trận nhầm lẫn (Confusion matrix) của tất cả mô hình được quan sát
Mô hình RF có giá trị True Positive cao nhất với 45,49% Trong khi, các mô hình
LR và KNN lần lượt có sai lệch loại I và II cao nhất với 8,5% và 14,29%
Qua các phân tích ở phần trên, mô hình RF được lựa chọn để đưa ra dự đoán với các dữ liệu sinh viên tại Học viện Ngân hàng do hiệu suất dự đoán vượt trội hơn so với các
mô hình khác
Theo kết quả trên Hình 3 cho thấy các thuộc tính (feature) liên quan đến kết quả học tập trong quá trình đào tạo ảnh hưởng lớn đến khả năng tốt nghiệp của sinh viên, trong khi các thuộc tính liên quan đến nhân
Bảng 3 Kết quả hiệu suất các mô hình dự đoán
Mô hình Accuracy Precision Recall F1
Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu
Bảng 4 Ma trận nhầm lẫn (Confusion matrix) của các mô hình
g Mô hình CatBoost
Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu
Trang 9khẩu học của sinh viên thì ảnh hưởng rất ít
đến nguy cơ tốt nghiệp muộn của sinh viên
Thuộc tính TermStatus4- thông tin xử lý
kết quả học vụ kỳ 4 đóng vai trò quan trọng
nhất, và giữ vai trò quan trọng hơn với
TermStatus1, TermStatus2, TermStatus3
là thông tin xử lí học vụ của kì 1, 2, 3
Tương tự với xử lí học vụ thì số lượng tín
chỉ tích lũy và điểm trung bình tích lũy các
học kỳ (GPA) cũng có quy luật như vậy
Kết quả này cho thấy kết quả học tập của
sinh viên ở học kỳ 4 (điểm trung bình tích
lũy, thông tin xử lý kết quả học vụ học kỳ)
đóng vai trò quan trọng nhất đến ảnh hưởng
đến khả năng tốt nghiệp đúng hạn của sinh
viên Đây là mốc thời điểm quan trọng của
sinh viên vì kết thúc năm thứ 2 là năm bản
lề của các chương trình đào tạo đại học 4
năm của Học viện Ngân hàng nói riêng và
của Việt Nam nói chung: là thời điểm kết
thúc các học phần đại cương và bắt đầu với
các khối kiến thức cơ sở ngành đồng thời
là thời điểm sinh viên đã đủ thời gian quen với môi trường giáo dục đại học; kết quả
và tiến độ học tập của sinh viên đã dần ổn định Đây là thời điểm quan trọng mà gia đình, nhà trường cần có sự quan tâm chú trọng đến sinh viên bên cạnh thời điểm bắt đầu học kỳ 1 và học kỳ 8 để giúp cho sinh viên định hướng chính xác lộ trình học đại học của mình từ đó thúc đẩy nâng cao tỷ lệ sinh viên tốt nghiệp đúng hạn
Mô hình RF áp dụng với dữ liệu thực nghiệm cho kết quả 64 cây quyết định (DT- Decision Tree) ảnh hưởng đến việc tốt nghiệp đúng hạn của sinh viên Hình 4 biểu diễn 1 cây quyết định trong các cây quyết định kết quả Các cây quyết định này cho thấy các quy luật ảnh hưởng đến kết quả tốt nghiệp đúng hạn của sinh viên được rút ra từ tập dữ liệu thực nghiệm
Để thực hiện phân tích sâu hơn tìm ra các thuộc tính ảnh hưởng đến mô hình
RF ra quyết định, nghiên cứu sử dụng kỹ
Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu
Hình 3 Độ quan trọng của các thuộc tính dự báo trong mô hình Random Forest
Trang 10thuật LIME (Local Interpretable
Model-Agnostic Explanations- Phép diễn giải cục
bộ cho mô hình bất khả tri) Kỹ thuật LIME
của Ribeiro và cộng sự (2016) dùng để mô
tả kỹ thuật đưa ra một dự đoán tối ưu dựa
trên lựa chọn các thuộc tính cục bộ thay
cho toàn cục trên toàn bộ tập dữ liệu Bằng
cách tạo ra một loạt các giải thích cho biết
mỗi thuộc tính đóng góp như thế nào vào
kết quả dự đoán, LIME cung cấp một lời
giải thích cục bộ cũng như xác định tính năng nào sẽ có ảnh hưởng cao nhất đến kết quả dự đoán
Hình 5 cho thấy kết quả giải thích cho trường hợp mẫu “Đúng hạn” Theo Hình
5, xác suất dự đoán cho lớp “Đúng hạn” là 0,99 Ba thuộc tính ảnh hưởng lớn nhất đến
dự đoán (lớp “Đúng hạn”) và có ảnh hưởng đến dự đoán là GPA4, GPA3, và GPA2 Lớp “Đúng hạn” được hỗ trợ bởi GPA4 =
Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu
Hình 4 Kết quả 1 cây quyết định trong 64 cây quyết định kết quả của mô hình RF
Nguồn: Tác giả tổng hợp từ kết quả nghiên cứu
Hình 5 Kết quả LIME giải thích mô hình RF bằng trường hợp tốt nghiệp đúng hạn trong
tập dữ liệu thử nghiệm