SỬ DỤNG CÁC MÔ HÌNH MACHINE LEARNING DỰ ĐOÁN TÌNH TRẠNG SINH VIÊN TỐT NGHIỆP ĐÚNG HẠN - Full 10 điểm

13 1 0
SỬ DỤNG CÁC MÔ HÌNH MACHINE LEARNING DỰ ĐOÁN TÌNH TRẠNG SINH VIÊN TỐT NGHIỆP ĐÚNG HẠN - Full 10 điểm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

52Tạp chí Khoa học & Đào tạo Ngân hàng Số 255- Tháng 8. 2023 © Học viện Ngân hàng ISSN 1859 - 011X Sử dụng các mô hình Machine Learning dự đoán tình trạng sinh viên tốt nghiệp đúng hạn Nguyễn Văn Thủy Học viện Ngân hàng Ngày nhận: 02/03/2023 Ngày nhận bản sửa: 06/04/2023 Ngày duyệt đăng: 14/04/2023 Tóm tắt: Nghiên cứu nhằm thực hiện lựa chọn mô hình học máy (Machine Learning) tối ưu để dự đoán tình trạng sinh viên tốt nghiệp đúng hạn. Bằng việc sử dụng tập dữ liệu của sinh viên chuyên ngành Ngân hàng của Học viện Ngân hàng giai đoạn 2010- 2020, thông qua các mô hình học máy như Logistic Regression, K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector Machine, XGBoost, CatBoost, nghiên cứu đã lựa chọn được mô hình Random Forest là mô hình tối ưu nhất. Nghiên cứu đã chỉ ra các thuộc tính thông tin xử lý học vụ và điểm trung bình các học kỳ 1 đến 4 có tác động mạnh đến khả năng tốt nghiệp đúng hạn, quá hạn của sinh viên từ đó đề xuất một số khuyến nghị giúp cho Nhà trường đưa ra các giải pháp nâng cao tỷ lệ tốt nghiệp của sinh viên. Từ khóa: Dự báo kết quả học tập sinh viên, Học máy, Học sâu, Trí tuệ nhân tạo Using Machine Learning models to predict the on-time graduation status of students Abstract: The study aims to perform optimal Machine Learning model selection to predict the on-time graduation status of students. By using the dataset of students majoring in Banking faculty from the Banking Academy during the period of 2010-2020 through Machine Learning models such as Logistic Regression, K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector Machine, XGBoost, and CatBoost, the study has chosen Random Forest as the optimal model. The research has identified 2 attributes: Academic processing information and Grade Point Average (GPA) of semesters 1 through 4 have a strong impact on the ability of students to graduate on time or late, and proposed some recommendations to help the school provide solutions to improve the graduation rate of students. Key words: Predicting student learning outcomes, Machine learning, Deep learning, artificial intelligence. Doi: 10.59276/TCKHDT.2023.08.2506. Nguyen, Van Thuy Banking Academy of VietNam Email: thuynv@hvnh.edu.vn NGUYỄN VĂN THỦY53Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 1. Giới thiệu Giáo dục đại học có vai trò rất quan trọng trong việc phát triển nguồn nhân lực chất lượng cao. Nó không chỉ cung cấp kiến thức chuyên môn cho sinh viên, mà còn trang bị các kỹ năng và phẩm chất cá nhân để đáp ứng nhu cầu của xã hội và thị trường lao động. Các cơ sở giáo dục đại học thiết kế các chương trình đào tạo từ 4-5 năm để sinh viên có thể tích lũy đầy đủ các kiến thức, kỹ năng, năng lực đáp ứng các nhu cầu của xã hội. Tuy nhiên theo VnExpress (2022), thực tế tại các cơ sở giáo dục đại học của Việt Nam nói riêng và trên thế giới nói chung có một tỷ lệ không nhỏ từ 14- 50% sinh viên tốt nghiệp muộn hoặc không tốt nghiệp. Điều này gây ra một sự lãng phí nguồn lực vô cùng lớn cho xã hội. Nguyên nhân của tình trạng này đến từ cả phía chủ quan và khách quan trong quá trình học tập của sinh viên tại trường như lý do tâm lý, hoàn cảnh gia đình, môi trường bạn bè, phương pháp học tập đại học, không tập trung trong quá trình học do môi trường học tập của các cơ sở giáo dục đại học. Gia đình và nhà trường cần can thiệp sớm để xác định các sinh viên có khả năng rơi vào tình trạng tốt nghiệp muộn hoặc không đủ điều kiện tốt nghiệp để có các biện pháp hỗ trợ tích cực cho đối tượng này. Dự đoán sớm tình trạng, nguy cơ của sinh viên giúp cho gia đình và nhà trường có được sự tư vấn kịp thời đến sinh viên, giúp sinh viên định hướng tốt nhất quá trình học tập, hướng tới nâng cao hiệu quả học tập và giảm thiểu tình trạng tốt nghiệp muộn hoặc không tốt nghiệp được của sinh viên. Tuy nhiên việc dự báo sớm kết quả học tập của sinh viên là một thách thức đối với các trường đại học. Các trường đại học đang gặp khó khăn trong việc dự báo sớm kết quả học tập của sinh viên do nhiều yếu tố khác nhau. Thứ nhất, mỗi sinh viên có nền tảng học vấn, khả năng và hoàn cảnh khác nhau, làm cho việc dự báo trở nên phức tạp và khó chính xác tới từng cá nhân sinh viên. Thứ hai, quá trình học tập của sinh viên là một quá trình dài, bao gồm nhiều yếu tố không chỉ liên quan đến khả năng học tập của sinh viên mà còn liên quan đến các yếu tố khác như tâm lý, xã hội, môi trường học tập và nhiều tác động khác từ môi trường khách quan. Nhiều sinh viên có thể gặp khó khăn trong việc hòa nhập với môi trường học tập, gặp các vấn đề về sức khỏe hoặc tâm lý, gây ảnh hưởng đến quá trình học tập và kết quả học tập của họ. Thứ ba, các trường đại học còn phải đối mặt với việc thu thập, xử lý, phân tích dữ liệu rất lớn về quá trình học tập của sinh viên để có thể đưa ra dự báo chính xác. Khái niệm sinh viên tốt nghiệp đúng hạn được sử dụng trong nghiên cứu này là sinh viên hoàn thành chương trình đào tạo đúng thời gian thiết kế của các chương trình đào tạo của các cơ sở giáo dục đại học. Sinh viên tốt nghiệp muộn là các sinh viên khi tốt nghiệp có thời gian học tập tại trường lớn hơn thời gian thiết kế dành cho chương trình đào tạo của các cơ sở giáo dục đại học. Sinh viên không đủ điều kiện tốt nghiệp là các sinh viên bị buộc thôi học do kết quả học tập kém trong quá trình đào tạo hoặc buộc thôi học do hết thời gian đào tạo mà chưa hoàn thành chương trình đào tạo và các điều kiện tốt nghiệp. Nghiên cứu này được thực hiện với kết cấu 5 phần là giới thiệu, tổng quan nghiên cứu, phương pháp nghiên cứu, kết quả và thảo luận, kết luận và một số kiến nghị. Nghiên cứu này tiến hành dựa trên các mô hình học máy với dữ liệu được thu thập từ các sinh viên chuyên ngành Ngân hàng tại Học viện Ngân hàng từ năm 2010- 2020 để thực hiện dự báo sinh viên tốt nghiệp đúng hạn. Kết quả của nghiên cứu đã xác định được mô hình học máy phù hợp và chỉ ra các thuộc tính Sử dụng các mô hình Machine Learning dự đoán tình trạng sinh viên tốt nghiệp đúng hạn54Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023 ảnh hưởng đến khả năng tốt nghiệp đúng hạn của sinh viên, từ đó xác định được các nhóm sinh viên có nguy cơ tốt nghiệp muộn và đề xuất các kiến nghị nhằm nâng cao tỷ lệ sinh viên tốt nghiệp đúng hạn. 2. Tổng quan nghiên cứu Trong những năm gần đây có nhiều nghiên cứu liên quan đến khai thác dữ liệu giáo dục để ứng dụng cho việc dự đoán hiệu quả học tập của sinh viên, dự đoán tỉ lệ bỏ học hay dự đoán nguy cơ sinh viên đang gặp khó khăn trong quá trình học. Phần này trình bày tổng quan các nghiên cứu nổi bật đã công bố trong giáo dục đại học bằng các kĩ thuật Machine Learning. Nghiên cứu Hussain, S., & cộng sự (2021) đã dự đoán kết quả học tập của sinh viên dựa trên thông tin cá nhân và thông tin kết quả học tập. Nghiên cứu đã chọn ra 30 trong số 126 thuộc tính sẽ ảnh hưởng đến kết quả dự đoán bằng thuật toán Di truyền. Sau đó, Random Forest (RF) và K-Nearest Neighbors (KNN) được sử dụng kết hợp đã cho ra kết quả tốt nhất, với độ chính xác 96,64%, Root Mean Squared Error (RMSE) 5,34. Tương tự, nghiên cứu của Jeslet, D. S. & cộng sự (2021) đã xây dựng một mô hình dự đoán kết quả của sinh viên năm cuối dựa trên kết quả học tập của các kì học trước đó bằng cách sử dụng KNN, Support Vector Machine (SVM) và Logistic Regression (LR). Dữ liệu được thu thập từ 1460 sinh viên từ các trường đại học khác nhau. Kết quả nghiên cứu đã chỉ ra SVM và LR là hai mô hình cho kết quả tốt nhất, với độ chính xác 99,72%. Theo Pallathadka và cộng sự (2021) đã dự đoán kết quả của khóa học sắp tới để phân loại sinh viên dựa trên các mô hình dự đoán khác nhau như Naive Bayes, ID3, C4.5 và SVM. Nghiên cứu đã sử dụng dữ liệu của 649 sinh viên đến từ Đại học Minho, Bồ Đào Nha. Kết quả theo mô hình SVM đã đạt hiệu quả dự đoán tốt nhất với độ chính xác 85%. Trong nghiên cứu của Bujang và cộng sự (2021) đã sử dụng các mô hình Machine Learning truyền thống như J48, Logistic Regression, Random Forest và SVM. Dữ liệu được thu thập từ 489 sinh viên khoa Công nghệ thông tin và Truyền thông thuộc Đại học Malaysia Polytechnic. Thực nghiệm này cho thấy J48 vượt trội so với các mô hình khác với độ chính xác 99,8%, RMSE 0,0238. Trong nghiên cứu của Al Mayahi & cộng sự (2020), các tác giả đã xây dựng một mô hình để dự đoán điểm của sinh viên trong một môn toán trong học kỳ thứ hai dựa trên điểm trước đây của họ ở trường và điểm của họ trong các khóa học trước đó của học kỳ đầu tiên bằng cách sử dụng SVM và Naive Bayes. Dữ liệu được thu thập từ 550 sinh viên thuộc Khoa Vật lí, Toán học, Khoa học và Khoa học máy tính thuộc Đại học Nizwa. SVM đã cho kết quả tốt nhất với độ chính xác 87%. Ngoài ra, có thể thấy rằng một số nghiên cứu trước đây không giải quyết được vấn đề mất cân bằng dữ liệu. Ploutz và cộng sự (2018) đã xây dựng một mô hình dự đoán tỷ lệ tốt nghiệp của sinh viên năm nhất tại Đại học Nevada, Las Vegas. Để giảm bớt tính nhiều chiều, tác giả đã thực hiện các kỹ thuật lựa chọn đặc trưng khác nhau như Chi square, tầm quan trọng của đặc trưng cây quyết định, loại bỏ đặc trưng đệ quy. SMOTE, ADASYN, ROS cũng được sử dụng để cân bằng các phiên bản phân phối của hai lớp. Dữ liệu được thu thập từ 16.074 sinh viên đã nhập học từ kì mùa thu 2010 đến kì mùa hè 2017. Kết quả cho thấy Decision Tree đã cho hiệu quả dự đoán tốt nhất, với điểm F1 là 85%. Trong nghiên cứu của A. Nabil và cộng sự (2021), các mô hình như DNN, DT, LR, SVM, RF, GB và KNN được sử dụng để dự đoán hiệu suất của học viên trong khóa học Cấu trúc dữ NGUYỄN VĂN THỦY55Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng liệu. Tác giả cũng đã áp dụng các phương pháp giúp giải quyết hiện tượng mất cân bằng mẫu bằng cách gia tăng kích thước mẫu thuộc nhóm thiểu số bằng các kĩ thuật khác nhau (Over sampling) như SMOTE, ADASYN, ROS, SMOTE- ENN để xử lý sự mất cân bằng phân phối mục tiêu. Dữ liệu được thu thập trong 14 năm từ năm 2006 tại một trường Đại học mở có chương trình học 4 năm dữ liệu bao gồm thông tin 4.266 sinh viên. Kết quả nghiên cứu cho thấy giải thuật cây quyết định (Decision Tree) kết hợp với SMOTE đã cho kết quả tốt nhất, với điểm F1 là 89%. Tại Việt Nam, có một số nghiên cứu về dự báo kết quả học tập của sinh viên dựa trên một số kỹ thuật học máy, học sâu. Nguyễn và cộng sự (2015) “đã dự báo kết quả học tập của học sinh dựa trên sự kết hợp phương pháp gần đúng Taylor với hai mô hình xám GM(1,1) và GM(2,1). Hai mô hình kết hợp T-GM(1,1) và T-GM(2,1) có thể đạt được các giá trị dự báo tối ưu nhất bằng cách tính gần đúng nhiều lần để cải thiện độ chính xác dự báo của hai mô hình xám. Kết quả đã hỗ trợ cho giáo viên tuyển chọn học sinh có quá trình học tập ổn định để bồi dưỡng học sinh giỏi, đồng thời cải thiện kết quả học tập đối với học sinh có quá trình học tập không ổn định nhằm đáp ứng các yêu cầu và mục tiêu của giáo dục”. Theo Lưu Hoài Sang và cộng sự (2020), bằng kỹ thuật học sâu thực nghiệm với mạng nơ-ron truyền thẳng đa tầng trên dữ liệu sinh viên 83.993 sinh viên Đại học Cần thơ, đã đưa ra một mô hình dự báo sớm kết quả học tập của sinh viên. Tác giả Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019) bằng hai thuật toán khai phá dữ liệu Logistic Regression, Naïve Bayes với dữ liệu 555 sinh viên ngành Công nghệ thông tin của Đại học Vinh đã được áp dụng để tìm ra mô hình tốt nhất cho việc dự báo tình trạng học tập cho sinh viên. Thông qua tổng quan các nghiên cứu có thể thấy các kỹ thuật học máy có thể phù hợp với mục tiêu nghiên cứu dự báo kết quả học tập của sinh viên nói chung và dự báo sinh viên tốt nghiệp đúng hạn nói riêng. Tùy từng đặc thù của từng bộ dữ liệu nghiên cứu thực nghiệm thì có các kỹ thuật học máy, học sâu phù hợp. Đã có nhiều nghiên cứu xác định các kỹ thuật học máy, học sâu để dự báo sinh viên tốt nghiệp đúng hạn như Hussain, S., & cộng sự (2021), Jeslet, D. S. & cộng sự (2021), Pallathadka và cộng sự (2021), Al Mayahi & cộng sự (2020), Ploutz và cộng sự (2018), Nguyễn và cộng sự (2015), Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019), Lưu Hoài Sang và cộng sự (2020). Tuy nhiên, hầu hết các nghiên cứu mới dừng lại ở các tập dữ liệu huấn luyện cho các mô hình học máy tương đối nhỏ, không gian của dữ liệu trong một thời gian ngắn và chưa chỉ ra các thuộc tính quan trọng trong tập dữ liệu ảnh hưởng đến kết quả dự báo. Độ chính xác của các mô hình dự báo thường có độ chính xác cao với các tập dữ liệu nhỏ và khi áp dụng với dữ liệu thực tế có độ phức tạp cao thì độ chính xác của mô hình ở mức thấp. Đây là khoảng trống nghiên cứu này thực hiện. Dựa trên dữ liệu thực tế của sinh viên chuyên ngành ngân hàng tại Học viện Ngân hàng giai đoạn 2010-2020, nghiên cứu tiến hành thực nghiệm trên các kỹ thuật học máy và lựa chọn mô hình tối ưu phù hợp, từ đó xác định các thuộc tính ảnh hưởng đến khả năng tốt nghiệp đúng hạn của sinh viên, từ đó xác định được các nhóm sinh viên có nguy cơ tốt nghiệp muộn. 3. Phương pháp nghiên cứu 3.1. Mô hình nghiên cứu Nghiên cứu tiến hành thực nghiệm trên 7 mô hình học máy là Logistic Regression (LR) Sử dụng các mô hình Machine Learning dự đoán tình trạng sinh viên tốt nghiệp đúng hạn56Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 8. 2023 , K-Nearest Neighbors (KNN), Decision Tree (DT), Random Forest (RF), Support Vector Machine (SVM), (Ray, 2019), XGBoost, CatBoost (Prokhorenkova và cộng sự, 2018). Để đánh giá độ chính xác của các mô hình học máy, nghiên cứu sử dụng ma trận nhầm lẫn (Confusion matrix), Precision, Recall, đường cong AUC-ROC và F1 Score (Tharwat, A, 2021). Ma trận nhầm lẫn sử dụng trong các kỹ thuật phân lớp của các mô hình học máy là một ma trận tổng quát thể hiện kết quả phân loại đúng và kết quả phân loại sai được tạo ra bởi mô hình phân loại bằng cách so sánh với giá trị thật của biến mục tiêu của dữ liệu kiểm tra. Một tập dữ liệu thực tế có 2 lớp được gán nhãn là lớp dương (Positive) và lớp âm (Negative). Mô hình dự đoán phân lớp trên tập dữ liệu kết quả cũng phân thành 2 lớp: lớp dương (Positive) và lớp âm (Negative) (Bảng 1). Trong đó, TP (True Positive): Tổng số trường hợp thực tế và dự báo khớp mẫu lớp dương; TN (True Negative): Tổng số trường hợp thực tế và dự báo khớp mẫu lớp âm; FP (False Positive): Tổng số trường hợp dự báo các quan sát thực tế thuộc nhãn lớp âm thành lớp dương; FN (False Negative): Tổng số trường hợp dự báo các quan sát thực thuộc nhãn lớp dương thành lớp âm. Precision (Tỷ lệ lớp dương đoán đúng): Trong tất cả các dự đoán lớp dương (Positive) được đưa ra, bao nhiêu dự đoán là chính xác với công thức. Precision = TP / (TP + FP) Recall (Tỷ lệ lớp dương thực): Trong tất cả các trường hợp Positive, bao nhiêu trường hợp đã được dự đoán chính xác với công thức như sau: Recall = TP / (TP + FN) Accuracy (Độ chính xác) được tính như sau: Accuracy= (TP+TN) / (TP + TN + FP +FN) F1 là số dung hòa Recall và Precision giúp ta có căn cứ để lựa chọn mô hình tốt nhất. F1 càng cao mô hình càng tốt. F1 là chỉ số được tính như sau: F1 = (2 x Precision x Recall) / ( 2 x Precision + Recall ) Đường cong ROC (Receiver operating Bảng 1. Ma trận nhầm lẫn với tập dữ liệu có 2 lớp được gán nhãn Thực tế\Dự đoán Lớp dương Lớp âm Lớp dương TP FN Lớp âm FP TN Nguồn: Tharwat, A. (2021) Nguồn: Hand, D. J. (2009) Hình 1. Cách tính giá trị độ đo đánh giá mô hình phân lớp NGUYỄN VĂN THỦY57Số 255- Tháng 8. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng characteristic): Thể hiện sự tương quan giữa Precision và Recall khi thay đổi giá trị ngưỡng (threshold). Đường cong Area Under the ROC (AUC- ROC): Là vùng nằm dưới ROC, vùng này càng lớn thì mô hình lựa chọn càng tốt (Hình 1). Các mô hình học máy được sử dụng trong nghiên cứu được tác giả thực hiện lập trình bằng ngôn ngữ Python để phân tích dữ liệu. 3.2. Dữ liệu nghiên cứu Dữ liệu được thu thập của 6.696 sinh viên Khoa Ngân hàng hệ đại học chính quy thuộc Học viện Ngân hàng, Hà Nội, Việt Nam thuộc các học kỳ năm học từ 2010- 2020. Dữ liệu bao gồm các thuộc tính về đặc điểm nhân khẩu học và các thông tin học thuật trong quá trình học của sinh viên. Dữ liệu được thu thập tổng hợp qua cơ sở dữ liệu phần mềm quản lý đào tạo của Học viện Ngân hàng (Học viện Ngân hàng, 2023). Đặc điểm nhân khẩu học của sinh viên, thông tin học thuật và chi tiết mô tả về các tính năng dữ liệu và loại dữ liệu bao gồm trong tập dữ liệu được liệt kê trong Bảng 2. Để tập dữ liệu được tạo sẵn sàng để phân tích, nghiên cứu đã tiến hành làm sạch, chuyển đổi, mã hóa dữ liệu. Với mục tiêu là dự đoán sinh viên tốt nghiệp đúng hạn hay quá hạn, trường dữ liệu “GradOnTime” được thêm vào bộ dữ liệu để theo dõi sinh viên tốt nghiệp đúng hạn hay không. Sinh viên được coi là tốt nghiệp đúng hạn khi tổng Bảng 2. Mô tả thông tin, loại dữ liệu của các thuộc tính dữ liệu Thuộc tính Loại dữ liệu Mô tả về thuộc tính StudentID Categorical (Phân loại) Mã số sinh viên: Mỗi sinh viên khi nhập học được gán 1 mã sinh viên. Mỗi mã sinh viên là duy nhất dùng để nhận dạng sinh viên trong mọi hoạt động học tập tại Học viện. Gender Categorical Giới tính – Phân loại: Nam/Nữ GroupID Categorical Đối tượng xét tuyển: Đối tượng xét tuyển «0», «1», «3», «4», «5», «6», «7»): Các hình thức xét tuyển theo tuyển thẳng, điểm học bạ, điểm thi THPT, xét chứng chỉ ngoại ngữ, xét chứng chỉ đánh giá năng lực, cử tuyển, hoặc các sinh viên gửi theo học (Sinh viên Lào hoặc các đối tượng quân sự gửi đào tạo) Region Categorical Khu vực: (“1”, “2”, “3”, “2NT”): Các khu vực tuyển sinh theo quy chế tuyển sinh của Bộ Giáo dục và Đào tạo AdmissionCode Categorical Khối xét tuyển: Khối xét tuyển (“A00”, “A01”, “D01”, “D07”, “C00”, “D09”): Các khối tuyển sinh của các ngành thuộc Học viện Ngân hàng theo quy chế tuyển sinh của Bộ Giáo dục và Đào tạo EntranceScore Numerical (số) Điểm trúng tuyển: Điểm thi trung học phổ thông của sinh viên khi xét tuyển vào Học viện Ngân hàng CreditsEarnned1 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ đầu tiên CreditsEarnned2 Numerical Tín chỉ tích lũy: Số tín chỉ sinh viên tích lũy ở học kỳ thứ 2 CreditsEarnned3 Numerical Tín chỉ tích lũ

Sử dụng mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp hạn Ngày nhận: 02/03/2023 Nguyễn Văn Thủy Ngày duyệt đăng: 14/04/2023 Học viện Ngân hàng Ngày nhận sửa: 06/04/2023 Tóm tắt: Nghiên cứu nhằm thực lựa chọn mơ hình học máy (Machine Learning) tối ưu để dự đốn tình trạng sinh viên tốt nghiệp hạn Bằng việc sử dụng tập liệu sinh viên chuyên ngành Ngân hàng Học viện Ngân hàng giai đoạn 2010- 2020, thơng qua mơ hình học máy Logistic Regression, K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector Machine, XGBoost, CatBoost, nghiên cứu lựa chọn mơ hình Random Forest mơ hình tối ưu Nghiên cứu thuộc tính thơng tin xử lý học vụ điểm trung bình học kỳ đến có tác động mạnh đến khả tốt nghiệp hạn, hạn sinh viên từ đề xuất số khuyến nghị giúp cho Nhà trường đưa giải pháp nâng cao tỷ lệ tốt nghiệp sinh viên Từ khóa: Dự báo kết học tập sinh viên, Học máy, Học sâu, Trí tuệ nhân tạo Using Machine Learning models to predict the on-time graduation status of students Abstract: The study aims to perform optimal Machine Learning model selection to predict the on-time graduation status of students By using the dataset of students majoring in Banking faculty from the Banking Academy during the period of 2010-2020 through Machine Learning models such as Logistic Regression, K-Nearest Neighbors, Decision Tree, Random Forest, Support Vector Machine, XGBoost, and CatBoost, the study has chosen Random Forest as the optimal model The research has identified attributes: Academic processing information and Grade Point Average (GPA) of semesters through have a strong impact on the ability of students to graduate on time or late, and proposed some recommendations to help the school provide solutions to improve the graduation rate of students Key words: Predicting student learning outcomes, Machine learning, Deep learning, artificial intelligence Doi: 10.59276/TCKHDT.2023.08.2506 Nguyen, Van Thuy Banking Academy of VietNam Email: thuynv@hvnh.edu.vn Tạp chí Khoa học & Đào tạo Ngân hàng 52 © Học viện Ngân hàng ISSN 1859 - 011X Số 255- Tháng 2023 NGUYỄN VĂN THỦY Giới thiệu tảng học vấn, khả hoàn cảnh khác nhau, làm cho việc dự báo trở nên phức Giáo dục đại học có vai trị quan trọng tạp khó xác tới cá nhân sinh việc phát triển nguồn nhân lực chất viên Thứ hai, trình học tập sinh lượng cao Nó khơng cung cấp kiến viên trình dài, bao gồm nhiều thức chuyên mơn cho sinh viên, mà cịn yếu tố khơng liên quan đến khả trang bị kỹ phẩm chất cá nhân học tập sinh viên mà liên quan đến để đáp ứng nhu cầu xã hội thị trường yếu tố khác tâm lý, xã hội, môi lao động Các sở giáo dục đại học thiết trường học tập nhiều tác động khác từ kế chương trình đào tạo từ 4-5 năm để môi trường khách quan Nhiều sinh viên có sinh viên tích lũy đầy đủ kiến thể gặp khó khăn việc hòa nhập với thức, kỹ năng, lực đáp ứng nhu môi trường học tập, gặp vấn đề sức cầu xã hội Tuy nhiên theo VnExpress khỏe tâm lý, gây ảnh hưởng đến (2022), thực tế sở giáo dục đại trình học tập kết học tập họ Thứ học Việt Nam nói riêng giới ba, trường đại học phải đối mặt với nói chung có tỷ lệ khơng nhỏ từ 14- việc thu thập, xử lý, phân tích liệu 50% sinh viên tốt nghiệp muộn khơng lớn q trình học tập sinh viên để có tốt nghiệp Điều gây lãng phí thể đưa dự báo xác nguồn lực vô lớn cho xã hội Nguyên Khái niệm sinh viên tốt nghiệp hạn nhân tình trạng đến từ phía chủ sử dụng nghiên cứu sinh quan khách quan q trình học viên hồn thành chương trình đào tạo tập sinh viên trường lý tâm thời gian thiết kế chương trình đào lý, hồn cảnh gia đình, mơi trường bạn bè, tạo sở giáo dục đại học Sinh phương pháp học tập đại học, không tập viên tốt nghiệp muộn sinh viên trung q trình học mơi trường tốt nghiệp có thời gian học tập trường học tập sở giáo dục đại học Gia lớn thời gian thiết kế dành cho chương đình nhà trường cần can thiệp sớm để trình đào tạo sở giáo dục đại học xác định sinh viên có khả rơi vào Sinh viên khơng đủ điều kiện tốt nghiệp tình trạng tốt nghiệp muộn không đủ sinh viên bị buộc học kết điều kiện tốt nghiệp để có biện pháp học tập q trình đào tạo hỗ trợ tích cực cho đối tượng Dự đốn buộc thơi học hết thời gian đào tạo mà sớm tình trạng, nguy sinh viên giúp chưa hồn thành chương trình đào tạo cho gia đình nhà trường có tư điều kiện tốt nghiệp Nghiên cứu vấn kịp thời đến sinh viên, giúp sinh viên thực với kết cấu phần giới định hướng tốt trình học tập, thiệu, tổng quan nghiên cứu, phương pháp hướng tới nâng cao hiệu học tập nghiên cứu, kết thảo luận, kết luận giảm thiểu tình trạng tốt nghiệp muộn số kiến nghị Nghiên cứu tiến không tốt nghiệp sinh viên hành dựa mơ hình học máy với Tuy nhiên việc dự báo sớm kết học tập liệu thu thập từ sinh viên chuyên sinh viên thách thức ngành Ngân hàng Học viện Ngân hàng trường đại học Các trường đại học từ năm 2010- 2020 để thực dự báo gặp khó khăn việc dự báo sớm kết sinh viên tốt nghiệp hạn Kết quả học tập sinh viên nhiều yếu tố nghiên cứu xác định mơ hình khác Thứ nhất, sinh viên có học máy phù hợp thuộc tính Số 255- Tháng 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 53 Sử dụng mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp hạn ảnh hưởng đến khả tốt nghiệp dự đoán tốt với độ xác 85% hạn sinh viên, từ xác định Trong nghiên cứu Bujang cộng nhóm sinh viên có nguy tốt nghiệp (2021) sử dụng mơ hình Machine muộn đề xuất kiến nghị nhằm nâng Learning truyền thống J48, Logistic cao tỷ lệ sinh viên tốt nghiệp hạn Regression, Random Forest SVM Dữ liệu thu thập từ 489 sinh viên khoa Tổng quan nghiên cứu Công nghệ thông tin Truyền thông thuộc Đại học Malaysia Polytechnic Thực Trong năm gần có nhiều nghiên nghiệm cho thấy J48 vượt trội so với cứu liên quan đến khai thác liệu giáo mơ hình khác với độ xác 99,8%, dục để ứng dụng cho việc dự đoán hiệu RMSE 0,0238 học tập sinh viên, dự đoán tỉ lệ bỏ học Trong nghiên cứu Al Mayahi & cộng hay dự đoán nguy sinh viên gặp (2020), tác giả xây dựng mơ khó khăn trình học Phần hình để dự đốn điểm sinh viên trình bày tổng quan nghiên cứu bật mơn tốn học kỳ thứ hai dựa công bố giáo dục đại học điểm trước họ trường điểm kĩ thuật Machine Learning họ khóa học trước Nghiên cứu Hussain, S., & cộng (2021) học kỳ cách sử dụng SVM dự đoán kết học tập sinh viên dựa Naive Bayes Dữ liệu thu thập từ thông tin cá nhân thông tin kết học 550 sinh viên thuộc Khoa Vật lí, Tốn học, tập Nghiên cứu chọn 30 số 126 Khoa học Khoa học máy tính thuộc Đại thuộc tính ảnh hưởng đến kết dự đoán học Nizwa SVM cho kết tốt thuật toán Di truyền Sau đó, Random với độ xác 87% Forest (RF) K-Nearest Neighbors (KNN) Ngồi ra, thấy số nghiên sử dụng kết hợp cho kết tốt cứu trước khơng giải vấn nhất, với độ xác 96,64%, Root Mean đề cân liệu Ploutz cộng Squared Error (RMSE) 5,34 (2018) xây dựng mơ hình dự đốn Tương tự, nghiên cứu Jeslet, D S & tỷ lệ tốt nghiệp sinh viên năm cộng (2021) xây dựng mơ hình dự Đại học Nevada, Las Vegas Để giảm đoán kết sinh viên năm cuối dựa bớt tính nhiều chiều, tác giả thực kết học tập kì học trước kỹ thuật lựa chọn đặc trưng khác cách sử dụng KNN, Support Vector Machine Chi square, tầm quan trọng đặc (SVM) Logistic Regression (LR) Dữ liệu trưng định, loại bỏ đặc trưng đệ thu thập từ 1460 sinh viên từ trường quy SMOTE, ADASYN, ROS đại học khác Kết nghiên cứu sử dụng để cân phiên phân SVM LR hai mơ hình cho kết tốt phối hai lớp Dữ liệu thu thập từ nhất, với độ xác 99,72% 16.074 sinh viên nhập học từ kì mùa thu Theo Pallathadka cộng (2021) dự 2010 đến kì mùa hè 2017 Kết cho thấy đốn kết khóa học tới để phân Decision Tree cho hiệu dự đoán tốt loại sinh viên dựa mơ hình dự đốn nhất, với điểm F1 85% Trong nghiên khác Naive Bayes, ID3, C4.5 cứu A Nabil cộng (2021), SVM Nghiên cứu sử dụng liệu mơ DNN, DT, LR, SVM, RF, GB 649 sinh viên đến từ Đại học Minho, Bồ Đào KNN sử dụng để dự đoán hiệu suất Nha Kết theo mơ hình SVM đạt hiệu học viên khóa học Cấu trúc 54 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 2023 NGUYỄN VĂN THỦY liệu Tác giả áp dụng phương Thông qua tổng quan nghiên cứu pháp giúp giải tượng cân thấy kỹ thuật học máy phù hợp mẫu cách gia tăng kích thước với mục tiêu nghiên cứu dự báo kết học mẫu thuộc nhóm thiểu số kĩ thuật tập sinh viên nói chung dự báo sinh khác (Over sampling) SMOTE, viên tốt nghiệp hạn nói riêng Tùy ADASYN, ROS, SMOTE- ENN để xử lý đặc thù liệu nghiên cân phân phối mục tiêu Dữ cứu thực nghiệm có kỹ thuật học liệu thu thập 14 năm từ năm máy, học sâu phù hợp Đã có nhiều nghiên 2006 trường Đại học mở có chương cứu xác định kỹ thuật học máy, học trình học năm liệu bao gồm thông tin sâu để dự báo sinh viên tốt nghiệp 4.266 sinh viên Kết nghiên cứu cho hạn Hussain, S., & cộng (2021), thấy giải thuật định (Decision Jeslet, D S & cộng (2021), Pallathadka Tree) kết hợp với SMOTE cho kết cộng (2021), Al Mayahi & cộng tốt nhất, với điểm F1 89% (2020), Ploutz cộng (2018), Nguyễn Tại Việt Nam, có số nghiên cứu dự cộng (2015), Nguyễn Thị Uyên, báo kết học tập sinh viên dựa Nguyễn Minh Tâm (2019), Lưu Hoài Sang số kỹ thuật học máy, học sâu Nguyễn cộng (2020) Tuy nhiên, hầu hết cộng (2015) “đã dự báo kết nghiên cứu dừng lại tập liệu học tập học sinh dựa kết hợp huấn luyện cho mơ hình học máy tương phương pháp gần Taylor với hai mô đối nhỏ, khơng gian liệu hình xám GM(1,1) GM(2,1) Hai mô thời gian ngắn chưa thuộc tính hình kết hợp T-GM(1,1) T-GM(2,1) có quan trọng tập liệu ảnh hưởng đến thể đạt giá trị dự báo tối ưu kết dự báo Độ xác mơ cách tính gần nhiều lần để cải hình dự báo thường có độ xác cao thiện độ xác dự báo hai mơ hình với tập liệu nhỏ áp dụng với xám Kết hỗ trợ cho giáo viên tuyển liệu thực tế có độ phức tạp cao độ chọn học sinh có q trình học tập ổn định xác mơ hình mức thấp Đây để bồi dưỡng học sinh giỏi, đồng thời cải khoảng trống nghiên cứu thực thiện kết học tập học sinh có Dựa liệu thực tế sinh viên q trình học tập khơng ổn định nhằm đáp chuyên ngành ngân hàng Học viện Ngân ứng yêu cầu mục tiêu giáo dục” hàng giai đoạn 2010-2020, nghiên cứu tiến Theo Lưu Hoài Sang cộng (2020), hành thực nghiệm kỹ thuật học kỹ thuật học sâu thực nghiệm với máy lựa chọn mơ hình tối ưu phù hợp, mạng nơ-ron truyền thẳng đa tầng từ xác định thuộc tính ảnh hưởng liệu sinh viên 83.993 sinh viên Đại học Cần đến khả tốt nghiệp hạn sinh thơ, đưa mơ hình dự báo sớm kết viên, từ xác định nhóm sinh học tập sinh viên Tác giả Nguyễn viên có nguy tốt nghiệp muộn Thị Uyên, Nguyễn Minh Tâm (2019) hai thuật toán khai phá liệu Logistic Phương pháp nghiên cứu Regression, Naïve Bayes với liệu 555 sinh viên ngành Công nghệ thông tin 3.1 Mơ hình nghiên cứu Đại học Vinh áp dụng để tìm mơ hình tốt cho việc dự báo tình trạng học Nghiên cứu tiến hành thực nghiệm mô tập cho sinh viên hình học máy Logistic Regression (LR) Số 255- Tháng 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 55 Sử dụng mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp hạn , K-Nearest Neighbors (KNN), Decision Bảng Ma trận nhầm lẫn với tập liệu Tree (DT), Random Forest (RF), Support có lớp gán nhãn Vector Machine (SVM), (Ray, 2019), XGBoost, CatBoost (Prokhorenkova Thực tế\Dự đoán Lớp dương Lớp âm cộng sự, 2018) Để đánh giá độ xác mơ hình Lớp dương TP FN học máy, nghiên cứu sử dụng ma trận nhầm lẫn (Confusion matrix), Precision, Lớp âm FP TN Recall, đường cong AUC-ROC F1 Score (Tharwat, A, 2021) Nguồn: Tharwat, A (2021) Ma trận nhầm lẫn sử dụng kỹ thuật phân lớp mơ hình học máy trường hợp dự báo quan sát thực thuộc ma trận tổng quát thể kết phân nhãn lớp dương thành lớp âm loại kết phân loại sai tạo Precision (Tỷ lệ lớp dương đoán đúng): mơ hình phân loại cách so sánh Trong tất các dự đoán lớp dương với giá trị thật biến mục tiêu (Positive) đưa ra, dự đoán liệu kiểm tra Một tập liệu thực tế có xác với công thức lớp gán nhãn lớp dương (Positive) Precision = TP / (TP + FP) lớp âm (Negative) Mơ hình dự đốn Recall (Tỷ lệ lớp dương thực): Trong tất phân lớp tập liệu kết phân các trường hợp Positive, trường thành lớp: lớp dương (Positive) lớp hợp dự đoán xác với công âm (Negative) (Bảng 1) thức sau: Trong đó, TP (True Positive): Tổng số Recall = TP / (TP + FN) trường hợp thực tế dự báo khớp mẫu lớp Accuracy (Độ xác) tính sau: dương; TN (True Negative): Tổng số trường Accuracy= (TP+TN) / (TP + TN + FP +FN) hợp thực tế dự báo khớp mẫu lớp âm; FP F1 số dung hòa Recall Precision giúp (False Positive): Tổng số trường hợp dự báo ta có để lựa chọn mơ hình tốt quan sát thực tế thuộc nhãn lớp âm thành F1 cao mơ hình tốt F1 số lớp dương; FN (False Negative): Tổng số tính sau: F1 = (2 x Precision x Recall) / ( x Precision + Recall ) Đường cong ROC (Receiver operating Nguồn: Hand, D J (2009) Hình Cách tính giá trị độ đo đánh giá mơ hình phân lớp 56 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 2023 NGUYỄN VĂN THỦY characteristic): Thể tương quan đặc điểm nhân học thông tin Precision Recall thay đổi giá trị học thuật trình học sinh viên ngưỡng (threshold) Dữ liệu thu thập tổng hợp qua sở Đường cong Area Under the ROC (AUC- liệu phần mềm quản lý đào tạo Học ROC): Là vùng nằm ROC, vùng viện Ngân hàng (Học viện Ngân hàng, lớn mơ hình lựa chọn tốt 2023) Đặc điểm nhân học sinh (Hình 1) viên, thông tin học thuật chi tiết mô tả Các mơ hình học máy sử dụng tính liệu loại liệu bao nghiên cứu tác giả thực lập trình gồm tập liệu liệt kê ngơn ngữ Python để phân tích liệu Bảng Để tập liệu tạo sẵn sàng để phân tích, 3.2 Dữ liệu nghiên cứu nghiên cứu tiến hành làm sạch, chuyển đổi, mã hóa liệu Với mục tiêu dự Dữ liệu thu thập 6.696 sinh viên đoán sinh viên tốt nghiệp hạn hay Khoa Ngân hàng hệ đại học quy hạn, trường liệu “GradOnTime” thuộc Học viện Ngân hàng, Hà Nội, Việt thêm vào liệu để theo dõi sinh viên Nam thuộc học kỳ năm học từ 2010- tốt nghiệp hạn hay không Sinh viên 2020 Dữ liệu bao gồm thuộc tính coi tốt nghiệp hạn tổng Bảng Mô tả thông tin, loại liệu thuộc tính liệu Thuộc tính Loại liệu Mô tả thuộc tính StudentID Categorical Gender (Phân loại) Mã số sinh viên: Mỗi sinh viên nhập học gán mã sinh viên Categorical Mỗi mã sinh viên dùng để nhận dạng sinh viên GroupID Categorical hoạt động học tập Học viện Region AdmissionCode Categorical Giới tính – Phân loại: Nam/Nữ EntranceScore CreditsEarnned1 Categorical Đối tượng xét tuyển: Đối tượng xét tuyển «0», «1», «3», «4», «5», «6», Numerical «7»): Các hình thức xét tuyển theo tuyển thẳng, điểm học bạ, điểm thi THPT, xét chứng ngoại ngữ, xét chứng đánh giá lực, cử (số) Numerical tuyển, sinh viên gửi theo học (Sinh viên Lào đối tượng quân gửi đào tạo) Khu vực: (“1”, “2”, “3”, “2NT”): Các khu vực tuyển sinh theo quy chế tuyển sinh Bộ Giáo dục Đào tạo Khối xét tuyển: Khối xét tuyển (“A00”, “A01”, “D01”, “D07”, “C00”, “D09”): Các khối tuyển sinh ngành thuộc Học viện Ngân hàng theo quy chế tuyển sinh Bộ Giáo dục Đào tạo Điểm trúng tuyển: Điểm thi trung học phổ thông sinh viên xét tuyển vào Học viện Ngân hàng Tín tích lũy: Số tín sinh viên tích lũy học kỳ CreditsEarnned2 Numerical Tín tích lũy: Số tín sinh viên tích lũy học kỳ thứ CreditsEarnned3 Numerical Tín tích lũy: Số tín sinh viên tích lũy học kỳ thứ CreditsEarnned4 Numerical Tín tích lũy: Số tín sinh viên tích lũy học kỳ thứ GPA1 Numerical GPA2 Numerical Điểm trung bình học kỳ 1: Điểm trung bình tích lũy học kì (Điểm trung bình tích lũy điểm trung bình theo trọng số học phần đạt sinh viên tính đến thời điểm kết thúc học kỳ 1) Điểm trung bình học kỳ 2: Điểm trung bình tích lũy học kì thứ GPA3 Numerical Điểm trung bình tích lũy học kì thứ Số 255- Tháng 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 57 Sử dụng mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp hạn Thuộc tính Loại liệu Mơ tả thuộc tính GPA4 Numerical TermStatus1 Categorical Điểm trung bình tích lũy học kì thứ TermStatus2 Categorical TermStatus3 Categorical Xử lí học vụ sau học kỳ đầu tiên: Các xử lý cảnh báo kết học tập TermStatus4 Categorical sinh viên, buộc học, xử lý học vụ khác học kỳ NoYearGrad Numerical GradOnTime Numerical Xử lí học vụ sau học kỳ thứ 2: Các xử lý cảnh báo kết học tập sinh viên, buộc học, xử lý học vụ khác học kỳ Xử lí học vụ sau học kỳ thứ 3: Các xử lý cảnh báo kết học tập sinh viên, buộc học, xử lý học vụ khác học kỳ Xử lí học vụ sau học kỳ thứ 4: Các xử lý cảnh báo kết học tập sinh viên, buộc học, xử lý học vụ khác học kỳ Tổng số thời gian để hồn thành chương trình học (năm) Tốt nghiệp hạn: 1- Sinh viên tốt nghiệp hạn; – Sinh viên tốt nghiệp hạn Nguồn: Tác giả tổng hợp từ liệu nghiên cứu thời gian hồn thành chương trình học nhỏ tập liệu có 6.696 dịng 21 thuộc tính đưa vào huấn luyện mơ hình học năm, lớn năm tốt máy lựa chọn Nghiên cứu thực chia tập liệu ban đầu thành tập liệu nghiệp hạn Giá trị nhị phân “1” train/test (tập liệu huấn luyện/ tập liệu kiểm tra) theo tỷ lệ 80:20 định cho sinh viên tốt nghiệp Trong tập liệu có 86,96% liệu gán nhãn “Đúng hạn” 13,04% hạn, “0” định cho sinh liệu gán nhãn “Quá hạn” (Hình 2) Dữ liệu “Đúng hạn” cân so với viên tốt nghiệp hạn Đối với liệu liệu “Quá hạn” phân tích liệu nghiên cứu sử dụng kỹ thuật SMOTE biến độc lập để đưa vào mơ hình dự để xử lý vấn đề cân liệu (Chawla cộng (2002)) Kết thúc huấn báo (StudentID, Major, Gender, GroupID, luyện mơ hình, nghiên cứu sử dụng kỹ thuật LIME (Local Interpretable Model- Region, AdmissionCode, EntranceScore, Agnostic Explanations- Phép diễn giải cục cho mơ hình bất khả tri) để phân tích mở CreditsEarnned1, CreditsEarnned2, rộng kết CreditsEarnned3, CreditsEarnned4, GPA1, Kết nghiên cứu thảo luận GPA2, GPA3, GPA4, TermStatus1, Theo kết phân tích liệu mơ hình RF, XGBoost CatBoost đạt độ TermStatus2, TermStatus3, TermStatus4, xác 92%, 89% 89%, cao so với mơ hình cịn lại Mơ NoYearGrad) nghiên cứu tiến hành làm hình RF đạt giá trị 89% cho Precision, 94% Recall 92% điểm F1, XGBoost đạt liệu loại bỏ liệu khuyết giá trị 87% cho Precision, 91% Recall 89% điểm F1 Mơ hình LR SVC cho thiếu, mã hóa liệu Kết nhận Nguồn: Tác giả tổng hợp từ liệu nghiên cứu Hình Tỉ lệ nhãn tập liệu 58 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 2023 NGUYỄN VĂN THỦY Bảng Kết hiệu suất mô hình dự đốn Bảng mơ tả ma trận nhầm lẫn (Confusion matrix) tất mơ hình quan sát Mơ hình Accuracy Precision Recall F1 Mơ hình RF có giá trị True Positive cao với 45,49% Trong khi, mơ hình LR 0,80 0,77 0,82 0,80 LR KNN có sai lệch loại I II cao với 8,5% 14,29% KNN 0,83 0,79 0,85 0,82 Qua phân tích phần trên, mơ hình RF lựa chọn để đưa dự đoán với DT 0,84 0,82 0,87 0,85 liệu sinh viên Học viện Ngân hàng hiệu suất dự đoán vượt trội so với RF 0,92 0,89 0,94 0,92 mơ hình khác Theo kết Hình cho thấy SVM 0,79 0,75 0,85 0,80 thuộc tính (feature) liên quan đến kết học tập trình đào tạo ảnh hưởng XGBoost 0,89 0,87 0,91 0,89 lớn đến khả tốt nghiệp sinh viên, thuộc tính liên quan đến nhân CatBoost 0,89 0,85 0,94 0,89 Nguồn: Tác giả tổng hợp từ kết nghiên cứu thấy hiệu suất đạt 80% điểm F1 Mơ hình RF đạt giá trị hiệu suất mơ tốt đạt 92% điểm F1 (Bảng 3) Bảng Ma trận nhầm lẫn (Confusion matrix) mơ hình a Mơ hình LR b Mơ hình KNN c Mơ hình DT d Mơ hình RF e Mơ hình SVC f Mơ hình XGBoost g Mơ hình CatBoost Nguồn: Tác giả tổng hợp từ kết nghiên cứu Số 255- Tháng 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 59 Sử dụng mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp hạn Nguồn: Tác giả tổng hợp từ kết nghiên cứu Hình Độ quan trọng thuộc tính dự báo mơ hình Random Forest học sinh viên ảnh hưởng thời điểm sinh viên đủ thời gian quen đến nguy tốt nghiệp muộn sinh viên với môi trường giáo dục đại học; kết Thuộc tính TermStatus4- thơng tin xử lý tiến độ học tập sinh viên dần ổn kết học vụ kỳ đóng vai trị quan trọng định Đây thời điểm quan trọng mà gia nhất, giữ vai trò quan trọng với đình, nhà trường cần có quan tâm TermStatus1, TermStatus2, TermStatus3 trọng đến sinh viên bên cạnh thời điểm bắt thông tin xử lí học vụ kì 1, 2, đầu học kỳ học kỳ để giúp cho sinh Tương tự với xử lí học vụ số lượng tín viên định hướng xác lộ trình học đại tích lũy điểm trung bình tích lũy học từ thúc đẩy nâng cao tỷ lệ học kỳ (GPA) có quy luật sinh viên tốt nghiệp hạn Kết cho thấy kết học tập Mơ hình RF áp dụng với liệu thực sinh viên học kỳ (điểm trung bình tích nghiệm cho kết 64 định lũy, thông tin xử lý kết học vụ học kỳ) (DT- Decision Tree) ảnh hưởng đến việc đóng vai trị quan trọng đến ảnh hưởng tốt nghiệp hạn sinh viên Hình đến khả tốt nghiệp hạn sinh biểu diễn định viên Đây mốc thời điểm quan trọng định kết Các định sinh viên kết thúc năm thứ năm cho thấy quy luật ảnh hưởng đến kết lề chương trình đào tạo đại học tốt nghiệp hạn sinh viên năm Học viện Ngân hàng nói riêng rút từ tập liệu thực nghiệm Việt Nam nói chung: thời điểm kết Để thực phân tích sâu tìm thúc học phần đại cương bắt đầu với thuộc tính ảnh hưởng đến mơ hình khối kiến thức sở ngành đồng thời RF định, nghiên cứu sử dụng kỹ 60 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 2023 NGUYỄN VĂN THỦY Nguồn: Tác giả tổng hợp từ kết nghiên cứu Hình Kết định 64 định kết mơ hình RF thuật LIME (Local Interpretable Model- giải thích cục xác định tính Agnostic Explanations- Phép diễn giải cục có ảnh hưởng cao đến kết cho mơ hình bất khả tri) Kỹ thuật LIME dự đốn Ribeiro cộng (2016) dùng để mô Hình cho thấy kết giải thích cho tả kỹ thuật đưa dự đoán tối ưu dựa trường hợp mẫu “Đúng hạn” Theo Hình lựa chọn thuộc tính cục thay 5, xác suất dự đốn cho lớp “Đúng hạn” cho tồn cục toàn tập liệu Bằng 0,99 Ba thuộc tính ảnh hưởng lớn đến cách tạo loạt giải thích cho biết dự đốn (lớp “Đúng hạn”) có ảnh hưởng thuộc tính đóng góp vào đến dự đốn GPA4, GPA3, GPA2 kết dự đoán, LIME cung cấp lời Lớp “Đúng hạn” hỗ trợ GPA4 = Nguồn: Tác giả tổng hợp từ kết nghiên cứu Hình Kết LIME giải thích mơ hình RF trường hợp tốt nghiệp hạn tập liệu thử nghiệm Số 255- Tháng 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 61 Sử dụng mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp hạn Nguồn: Tác giả tổng hợp từ kết nghiên cứu Hình Kết LIME giải thích mơ hình RF trường hợp tốt nghiệp hạn tập liệu thử nghiệm 3,20; GPA2 = 2,5 GPA3 = 3,83; Thuộc (2021) sử dụng mẫu cân bằng, kích tính GPA4 = 3,20 có hệ số 0,19; GPA2 thước mẫu nhỏ hơn, giải thuật xử = 2,5 có hệ số 0,12, GPA3 = 3,83 có lý thuật tốn di truyền trước áp hệ số 0,11, cho thấy với hệ số lớn dụng RF, khi, nghiên cứu với cỡ chứng tỏ thuộc tính tác động mãu phức tạp không xử lý liệu nhiều đến kết dự đoán cuối giải thuật trước chạy RF So Hình cho thấy kết giải thích cho trường với kết nghiên cứu Ploutz cộng hợp mẫu tốt nghiệp “Quá hạn” Như thể (2018), với xử lý liệu cân Hình 6, xác suất dự đoán cho lớp bằng, cỡ mẫu độ phức tạp tương đương “Quá hạn” trường hợp 0,97 Vì độ xác mơ hình RF vậy, ba thuộc tính ảnh hưởng lớn đến nghiên cứu tốt (92% so với 89%) dự đốn (lớp “Q hạn”) có ảnh hưởng Kết nghiên cứu cho thấy yếu tố tích cực đến dự đốn CreditsEarned1, tình trạng xử lý học vụ học kỳ, điểm GPA2, CreditsEarnned2 Lớp “Q hạn” trung bình tích lũy học kỳ, tín tích hỗ trợ CreditsEarnned1 = 15,0 có lũy học kỳ tác động mạnh mẽ đến khả hệ số 0,13; GPA2 = 1,69 có hệ số 0,05; tốt nghiệp hạn sinh viên CreditsEarnned2= 23,0 có hệ số 0,04 Các nhóm sinh viên có nguy tốt nghiệp cho thấy thuộc tính tác động muộn thuộc sinh viên có kết học nhiều đến kết dự đoán cuối tập học kỳ đầu thấp bao gồm thuộc Qua kết nghiên cứu tính số tín tích lũy, điểm trung bình tích thấy việc sử dụng mơ hình học máy lũy thấp Random Forest dự đốn sớm kết tốt nghiệp sinh viên Kết Kết luận số khuyến nghị phù hợp với nghiên cứu Hussain, S., & cộng (2021) Ploutz 5.1 Kết luận cộng (2018) Tuy nhiên so với kết nghiên cứu Hussain, S., & cộng Nghiên cứu mơ hình dự báo kết (2021) độ xác mơ hình RF học tập dựa mơ hình học máy, học nghiên cứu có kết thấp (92% sâu, trí tuệ nhân tạo nhằm mục đích phát so với 96,4%) với nguyên nhân triển công cụ phương pháp để giúp nghiên cứu Hussain, S., & cộng trường đại học dự đốn kết 62 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 2023 NGUYỄN VĂN THỦY học tập sinh viên cung cấp cho họ tăng cường hệ thống hỗ trợ sinh viên: giải pháp phù hợp để hỗ trợ học tập cho Hệ thống hỗ trợ sinh viên bao gồm hệ thống sinh viên Bằng liệu sinh viên chuyên cố vấn học tập có khả nắm bắt đầy đủ ngành Ngân hàng Học viện Ngân hàng thông tin kết dự báo sớm tình hình giai đoạn 2010-2020, nghiên cứu học tập sinh viên Đội ngũ cố vấn học chứng minh hiệu việc sử tập với thông tin tồn diện sinh viên dụng mơ hình Machine Learning để dự có khả tư vấn tốt tới sinh viên báo tình trạng tốt nghiệp hạn sinh việc giải vấn đề liên quan viên Kết cho thấy mơ hình Random đến học tập sống giúp tăng Forest mơ hình tối ưu để dự đoán khả sinh viên tốt nghiệp hạn tình trạng xác định Các hình thức hỗ trợ bao gồm tư vấn thuộc tính liên quan đến thơng tin xử lý học tập, hỗ trợ tâm lý, hỗ trợ sức khỏe học vụ điểm trung bình học kỳ dịch vụ hỗ trợ khác đến có tác động mạnh đến khả tốt nghiệp hạn sinh viên Việc áp 5.3 Định hướng nghiên cứu mở rộng dụng phương pháp quản lý giáo dục giúp nhà trường đưa Hạn chế nghiên cứu tập liệu định đắn hiệu để hỗ trợ nghiên cứu chưa có thuộc tính hành sinh viên đồng thời nâng cao tỷ lệ sinh viên vi, thái độ học tập sinh viên tốt nghiệp hạn trình học đại học thời gian dành cho học tập nghiên cứu học kỳ, thái độ 5.2 Một số khuyến nghị học tập với học phần học kỳ, môi trường học tập giảng dạy, hỗ trợ nhà Để nâng cao tỷ lệ sinh viên tốt nghiệp trường, gia đình, xã hội, phương tiện dạy hạn, dựa kết phân tích trên, học, xu hướng xã hội liên quan đến số khuyến nghị nghiên cứu đề ngành nghề theo học Điều ảnh xuất với sở giáo dục đại học là: hưởng đến độ xác mơ hình dự Thứ nhất, sở giáo dục cần quan tâm báo Hạn chế khác nghiên cứu tập xây dựng công cụ phương pháp dự liệu sinh viên ngành Ngân hàng báo sớm kết học tập sinh viên chưa thực tập liệu tất Cùng với liệu trình đào tạo ngành đào tạo đồng thời Một hạn chế khác sinh viên, trường cần dựa nghiên cứu mơ hình nghiên cứu phương pháp phân tích liệu học thực nghiệm mơ hình học máy máy, học sâu, trí tuệ nhân tạo để xây dựng đơn lẻ, cần có cải tiến áp dụng mơ cơng cụ phương pháp dự hình học máy kết hợp, cải tiến mơ báo sớm xác kết học tập sinh hình học sâu (deep learning) để nâng cao viên theo học kỳ, năm học để từ có độ xác mơ hình dự báo có biện pháp tác động tới cá Có nhiều hướng nghiên cứu mở rộng tiềm nhân sinh viên trình đào tạo theo chủ đề như: Nghiên cứu cải trường Các hệ thống cơng tiến mơ hình dự báo sớm kết học cụ hỗ trợ tích cực, cảnh báo sớm cho tập sinh viên để cải thiện độ xác thân sinh viên, gia đình nhà trường mơ hình thơng qua cải tiến kết hợp trình học tập mơ hình truyền thống học máy, học Thứ hai, sở giáo dục cần trọng sâu… Nghiên cứu dự báo sớm tình trạng Số 255- Tháng 2023- Tạp chí Khoa học & Đào tạo Ngân hàng 63 Sử dụng mơ hình Machine Learning dự đốn tình trạng sinh viên tốt nghiệp hạn khác sinh viên nguy buộc học, nguy không tốt nghiệp, dự báo sớm kết tốt nghiệp… Nghiên cứu dự báo sớm tập liệu tổng thể ngành đào tạo sở giáo dục đại học ■ Tài liệu tham khảo Al Mayahi, K., & Al-Bahri, M (2020, October), Machine learning based predicting student academic success, In 2020 12th International Congress on Ultra Modern Telecommunications and Control Systems and Workshops (ICUMT) (pp 264-268), IEEE Bujang, S D A., Selamat, A., & Krejcar, O (2021, February), A predictive analytics model for students grade prediction by supervised machine learning, In IOP Conference Series: Materials Science and Engineering (Vol 1051, No 1, p 012005), IOP Publishing Chawla, N V., Bowyer, K W., Hall, L O., & Kegelmeyer, W P (2002), SMOTE: synthetic minority over-sampling technique, Journal of artificial intelligence research, 16, 321-357 Hand, D J (2009), Measuring classifier performance: a coherent alternative to the area under the ROC curve, Machine learning, 77(1), 103-123 Học viện Ngân hàng (2023), Dữ liệu phần mềm quản lý đào tạo UIS, ngày truy cập 10/03/2022 Hussain, S., & Khan, M Q (2021), Student-performulator: Predicting students’ academic performance at secondary and intermediate level using machine learning, Annals of data science, 1-19 Jeslet, D S., Komarasamy, D., & Hermina, J J (2021, May), Student Result Prediction in Covid-19 Lockdown using Machine Learning Techniques, In Journal of Physics: Conference Series (Vol 1911, No 1, p 012008), IOP Publishing Nabil, A., Seyam, M., & Abou-Elfetouh, A (2021), Prediction of students’ academic performance based on courses’ grades using deep neural networks, IEEE Access, 9, 140731-140746 Nguyễn, P H., Tian-Wei, S., & Masatake, N (2015), Dự báo kết học tập học sinh dựa kết hợp phương pháp gần Taylor mơ hình xám, VNU Journal of Science: Education Research, 31(2) Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019), Dự báo kết học tập sinh viên phương pháp khai phá liệu, Tạp chí khoa học, Đại học Vinh, Số 3A/2019, trang 68-73 Lưu Hoài Sang, Trần Thanh Điện, Nguyễn Thanh Hải, Nguyễn Thái Nghe (2020), Dự báo kết học tập kỹ thuật học sâu với mạng nơ-ron đa tầng, Tạp chí Khoa học Trường Đại học Cần Thơ, 56(3), 20-28 Pallathadka, H., Wenda, A., Ramirez-Asís, E., Asís-López, M., Flores-Albornoz, J., & Phasinam, K (2021), Classification and prediction of student performance data using various machine learning algorithms, Materials today: proceedings Ploutz, E C (2018), Machine Learning Applications in Graduation Prediction at the University of Nevada, Las Vegas, Doctoral dissertation, University of Nevada, Las Vegas Prokhorenkova, L., Gusev, G., Vorobev, A., Dorogush, A V., & Gulin, A (2018), CatBoost: unbiased boosting with categorical features, Advances in neural information processing systems, 31 Ribeiro, M T., Singh, S., & Guestrin, C (2016), Model-agnostic interpretability of machine learning Ray, S (2019), A quick review of machine learning algorithms, In 2019 International conference on machine learning, big data, cloud and parallel computing (COMITCon) (pp 35-39) IEEE Tharwat, A (2021), Classification assessment methods, Applied computing and informatics, 17(1), 168-192, https:// www.emerald.com/insight/content/doi/10.1016/j.aci.2018.08.003/full/pdf VnExpress(2022), Những sinh viên không ngại trường muộn, Truy cập ngày 09 tháng 03 năm 2023, từ https:// vnexpress.net/nhung-sinh-vien-khong-ngai-ra-truong-muon-4533012.html 64 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 255- Tháng 2023

Ngày đăng: 01/03/2024, 04:14

Tài liệu cùng người dùng

Tài liệu liên quan