1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận Văn Thạc Sĩ Hệ Thống Thông Tin) Dự Báo Khả Năng Nghỉ Học Của Học Viên Tiếng Anh Trực Tuyến Theo Từng Giai Đoạn Bằng Khoa Học Dữ Liệu.pdf

83 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Untitled ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN MINH TUẤN DỰ BÁO KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN TIẾNG ANH TRỰC TUYẾN THEO TỪNG GIAI ĐOẠN BẰNG KHOA HỌC DỮ LIỆU LUẬN VĂN THẠC SĨ CHUY[.]

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN MINH TUẤN DỰ BÁO KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN TIẾNG ANH TRỰC TUYẾN THEO TỪNG GIAI ĐOẠN BẰNG KHOA HỌC DỮ LIỆU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 48 01 04 BÌNH DƯƠNG – 2023 ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN MINH TUẤN DỰ BÁO KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN TIẾNG ANH TRỰC TUYẾN THEO TỪNG GIAI ĐOẠN BẰNG KHOA HỌC DỮ LIỆU LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 48 01 04 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS MAI HOÀNG BẢO ÂN BÌNH DƯƠNG - 2023 LỜI CAM ĐOAN Luận văn cơng trình nghiên cứu cá nhân tơi, thực hướng dẫn khoa học TS Mai Hoàng Bảo Ân Các số liệu, kết luận nghiên cứu trình bày luận văn hồn tồn trung thực Tơi xin hồn tồn chịu trách nhiệm lời cam đoan i LỜI CẢM ƠN Trong trình học tập, nghiên cứu thực luận văn “Dự báo khả nghỉ học học viên tiếng Anh trực tuyến theo giai đoạn khoa học liệu”, nhận nhiều hỗ trợ, giúp đỡ từ phía thầy cơ, cá nhân tổ chức sau: Trước hết, xin chân thành cảm ơn tri ân sâu sắc đến PGS.TS Lê Tuấn Anh dõi theo động viên, dẫn dắt tơi bạn đồng mơn khai phá tầm nhìn, hướng cho tiếp cận lĩnh vực nghiên cứu vừa khoa học, vừa gần gũi thực tiễn sống Đặc biệt, để hoàn thành luận văn này, xin chân thành cảm ơn sâu sắc đến TS Mai Hoàng Bảo Ân - Viện John Von Neumann tận tâm dìu dắt, hướng dẫn, góp ý, chỉnh sửa để tơi hồn thành luận văn Tơi xin gửi lời cảm ơn đến Ban Giám hiệu nhà trường, Phòng đào tạo Sau Đại học, Thầy, Cô Khoa Kỹ thuật - Công nghệ, Trường Đại học Thủ Dầu Một tạo điều kiện môi trường học tập, nghiên cứu thuận lợi Xin cảm ơn tất Thầy, Cô giảng viên thỉnh giảng tâm huyết không ngại đường xa để truyền đạt cho kiến thức kinh nghiệm vô cùng quý giá học tập nghiên cứu khoa học Một lần xin tri ân trân trọng cảm ơn tất người giúp đỡ, hỗ trợ tơi hồn thành luận văn Thủ Dầu Mợt, ngày 26 tháng 12 năm 2022 TÁC GIẢ Nguyễn Minh Tuấn ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii BẢNG KÝ HIỆU, CHỮ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC CÁC SƠ ĐỒ, BIỂU ĐỒ vii DANH MỤC CÁC HÌNH viii MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ DỰ BÁO KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN HỌC TRỰC TUYẾN HỌC TRỰC TUYẾN VÀ QUẢN LÝ QUAN HỆ HỌC VIÊN TRONG HỌC TRỰC TUYẾN 1.1 HỌC TRỰC TUYẾN LA GI? 1.2 MỐI QUAN HỆ VỚI HỌC VIÊN TRONG HỌC TRỰC TUYẾN VẤN ĐỀ BỎ HỌC KỸ THUẬT MÁY HỌC VÀ KHAI PHÁP DỮ LIỆU TRONG DỰ BÁO KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN CHƯƠNG 2: CÁC KỸ THUẬT TRONG PHÂN TÍCH DỰ BÁO TRONG BÀI TỐN DỰ BÁO HỌC VIÊN NGHỈ HỌC 10 TIỀN XỬ LÝ DỮ LIỆU 10 1.1 LÀM SẠCH, CHUẨN HÓA VÀ CHUYỂN ĐỔI DỮ LIỆU 10 1.2 XỬ LÝ DỮ LIỆU THIẾU 11 1.3 LẤY MẪU 11 1.4 LỰA CHỌN ĐẶC TRƯNG VÀ BIẾN 12 MƠ HÌNH DỰ ĐOÁN KHẢ NĂNG NGHỈ HỌC CỦA HỌC VIÊN ÁP DỤNG KỸ THUẬT HỌC MÁY VÀ KHAI PHÁ DỮ LIỆU 13 2.1 MẠNG THẦN KINH NHÂN TẠO (ANN) 13 2.2 MƠ HÌNH TĂNG ĐỘ DỐC (GB) 14 iii 2.3 RỪNG NGẪU NHIÊN (RANDOM FOREST) 15 2.4 TĂNG CƯỜNG ĐỘ DỐC CỰC CAO (XGBOOST) 17 CHƯƠNG 3: XÂY DỰNG MƠ HÌNH DỰ ĐOÁN KHẢ NĂNG HỌC VIÊN NGHỈ HỌC 19 PHƯƠNG PHÁP XÂY DỰNG 19 1.1 CÁC BƯỚC XÂY DỰNG MƠ HÌNH 19 1.2 CÁC CÔNG CỤ VÀ THƯ VIỆN SỬ DỤNG 20 XÂY DỰNG DỮ LIỆU 21 2.1 THÔNG TIN TẬP DỮ LIỆU 21 2.2 TIỀN XỬ LÝ VÀ BIẾN ĐỔI DỮ LIỆU 27 2.3 PHÂN TÍCH DỮ LIỆU, LỰA CHỌN CÁC ĐẶC TRƯNG 30 2.4 XÁC ĐỊNH THUỘC TÍNH QUAN TRỌNG 43 XÂY DỰNG MƠ HÌNH 46 ĐÁNH GIÁ HIỆU NĂNG 46 4.1 ĐỘ CHÍNH XÁC (ACCURACY) 47 4.2 TỶ LỆ TRÚNG (PRECISION) 47 4.3 ĐỘ NHẠY (RECALL) 47 4.4 F1-SCORE 48 4.5 DIỆN TÍCH DƯỚI ĐƯỜNG CONG (AUC ROC) 48 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 49 THỰC NGHIỆM 49 1.1 MÔI TRƯỜNG 49 1.2 ĐÀO TẠO MƠ HÌNH VÀ ĐIỀU CHỈNH SIÊU THAM SỐ 50 ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM 50 KẾT LUẬN VÀ KIẾN NGHỊ 57 KẾT LUẬN 57 HƯỚNG PHÁT TRIỂN 58 DANH MỤC TÀI LIỆU THAM KHẢO 60 iv BẢNG KÝ HIỆU, CHỮ VIẾT TẮT Ký hiệu, viết tắt Ý nghĩa tiếng Anh Ý nghĩa tiếng Việt ANN Artificial Neural Network Mạng thần kinh nhân tạo CPU Central Processing Unit Chip xử lý trung tâm CV Cross Validation Kiểm tra chéo DM Data mining Khai phá liệu FNN Feed-forward Networks GB Gradient Boosting Tăng cường độ dốc HSSV Students Học sinh, sinh viên HV Learner Học viên KNN K-nearest neighbor Hàng xóm thứ K gần ML Machine learning Học máy NN Neural Networks Mạng thần kinh OOB Out of bag RAM random-access memory Bộ nhớ truy xuất ngẫu nhiên RF Random forest Rừng ngẫu nhiên SVM Support Vector Machine Máy vectơ hỗ trợ XGBoost Extreme Gradient Boosting Tăng cường độ dốc cực cao Neural Mạng thần kinh chuyển tiếp nguồn cấp liệu v DANH MỤC CÁC BẢNG Bảng 3.1 Danh mục thuộc tính tập liệu 27 Bảng 3.2 Ma trận nhầm lẫn (Confusion Matrix) 46 Bảng 4.1 Kết độ xác phương pháp 51 Bảng 4.2 Kết dự báo chung học viên bỏ học không bỏ học 52 vi DANH MỤC CÁC SƠ ĐỒ, BIỂU ĐỒ Biểu đồ 3.1 Tỷ lệ bỏ học liệu 30 Biểu đồ 3.2 Số lượng bỏ học theo độ tuổi 31 Biểu đồ 3.3 Số lượng bỏ học theo trạng thái bắt đầu 31 Biểu đồ 3.4 Số lượng bỏ học theo loại khóa học 32 Biểu đồ 3.5 Số lượng bỏ học theo cấp độ loại khóa học 32 Biểu đồ 3.6 Số lượng bỏ học theo độ dài khóa học 33 Biểu đồ 3.7 Số lượng bỏ học theo trạng thái khóa học bất thường 33 Biểu đồ 3.8 Số lượng bỏ học theo số lượng giảng khóa học 34 Biểu đồ 3.9 Số bỏ học theo tổng số học viên khóa 34 Biểu đồ 3.10 Số lượng học viên bỏ học theo tổng số học EF 35 Biểu đồ 3.11 Số lượng học viên bỏ học theo số học tuần, học 35 Biểu đồ 3.12 Số lượng học viên bỏ học theo giảng tuần 36 Biểu đồ 3.13 Số lượng học viên bỏ học xếp buổi học tuần 36 Biểu đồ 3.14 Số lượng học viên bỏ học theo thuộc tính giảng viên 37 Biểu đồ 3.15 Số lượng học viên bỏ học theo tình trạng đăng nhập 37 Biểu đồ 3.16 Số lượng học viên bỏ học theo trạng thái upload liệu 38 Biểu đồ 3.17 Số lượng học viên bỏ học theo kinh nghiệm giảng viên 38 Biểu đồ 3.18 Số lượng học viên bỏ học theo tình trạng điểm số 39 Biểu đồ 3.19 Số lượng học viên bỏ học theo tỷ lệ khơng hồn thành tập 39 Biểu đồ 3.20 Số lượng học viên bỏ học theo tỷ lệ vắng 40 Biểu đồ 3.21 Số lượng học viên bỏ học theo số buổi vắng 40 Biểu đồ 3.22 Số lượng học viên bỏ học theo tỷ lệ NIReport 41 Biểu đồ 3.23 Số lượng học viên bỏ học theo tỷ lệ EXReport 41 Biểu đồ 3.24 Tỷ lệ học viên bỏ học theo NumGradeNI, EX, GD 41 Biểu đồ 3.25 Mức độ tương quan với thuộc tính mục tiêu “Churn_3m” 42 Biểu đồ 4.1 Độ xác train test với tất phương pháp 51 Biểu đồ 4.2 Kết dự báo chung học viên bỏ học không bỏ học 53 Biểu đồ 4.3 Biểu đồ ROC kết phương pháp 54 vii DANH MỤC CÁC HÌNH Hình 2.1 Cấu trúc đơn giản hóa FNN [26] 14 Hình 2.2 Cấu trúc Random Forest [29] 16 Hình 3.1 Mơ hình kết hợp đề xuất 19 Hình 3.2 Kết đánh giá Feature importance 71 thuộc tính KNN 43 Hình 3.3 Kết đánh giá Feature importance thuộc tính KNN 44 Hình 3.4 Kết đánh giá Feature importance thuộc tính KNN 44 Hình 3.5 Kết đánh giá Feature Importance Logistic Regression 45 Hình 3.6 Kết đánh giá Feature Importance Linear Regression 45 Hình 3.7 Kết đánh giá Feature Importance Decision Tree 45 Hình 3.8: Minh họa Đường cong AUC ROC 48 Hình 4.1 Kết Cross Validation K-Fold 55 viii - Nghiên cứu tích hợp mơ hình học máy vào chương trình đào tạo trực tuyến Việt Nam, đồng thời cải tiến thời gian dự báo kết dự báo Mặc dù nỗ lực song thời gian nghiên cứu, trình độ thân có hạn điều kiện nghiên cứu cịn nhiều hạn chế nên luận văn khơng thể tránh khỏi thiếu sót 59 DANH MỤC TÀI LIỆU THAM KHẢO [1] L Aulck, N Velagapudi, J Blumenstock, J West, “Predicting student dropout in higher education,” arXiv preprint arXiv:1606.06364, 2016 [2] S Lee, J.Y Chung, “The machine learning-based dropout early warning system for improving the performance of dropout prediction,” Applied Sciences, 2019, p 3093 [3] M Orooji, J Chen, “Predicting Louisiana public high school dropout through imbalanced learning techniques,” 18th IEEE international conference on machine learning and applications, 2019 [4] B Prenkaj, P Velardi, G Stilo, D Distante, S Faralli, “A survey of machine learning approaches for student dropout prediction in online courses,” ACM Computing Surveys, , 2022, pp 1-34 [5] R.S Baker, P.S Inventado, “Educational data mining and learning analytics,” Learning analytics, Springer , 2014, pp 61-75 [6] G Siemens, R.S.d Baker, “Learning analytics and educational data mining: Towards communication and collaboration,” Proceedings of the 2nd international conference on learning analytics and knowledge, 2012 [7] A Alamri, M Alshehri, A Cristea, F.D Pereira, E Oliveira, L Shi, C Stewart, “Predicting MOOCs dropout using only two easily obtainable features from the first week's activities,” International Conference on Intelligent Tutoring, 2019 [8] C Romero, S Ventura, M Pechenizkiy, R.S Baker, “Handbook of educational data mining,” CRC press, 2010 [9] Skalka and Drlik, 2020, J Skalka, M Drlik, “Automated assessment and microlearning units as predictors of at-risk students and students' outcomes in the introductory programming courses,,” Applied Sciences, 2020, p 4566 60 [10] S.B Kotsiantis, C Pierrakeas, P.E Pintelas, “Preventing student dropout in distance learning using machine learning techniques,” International conference on knowledge-based and intelligent information and engineering systems, 2003 [11] C Márquez-Vera, C.R Morales, S.V Soto, “Predicting school failure and dropout by using data mining techniques,” IEEE Revista Iberoamericana de Tecnologias del Aprendizaje, 2013), pp 7-14 [12] C Lang, G Siemens, A Wise, D Gasevic, , “Handbook of learning analytics, ,,” SOLAR, Society for Learning Analytics and Research, New York, 2017 [13] E.M Queiroga, J.L Lopes, K Kappel, M Aguiar, R.M Araújo, R Munoz, R Villarroel, C Cechinel, “A learning analytics approach to identify students at risk of dropout: A case study with a technical distance education course,” Applied Sciences, 2010, p 3998 [14] Y.Li, “Feature extraction and learning effect analysis for MOOCs users based on data mining,” International Journal of Emerging Technologies in Learning (iJET), 2018, pp 108-120 [15] A Serra, P Perchinunno, M Bilancia, “Predicting student dropouts in higher education using supervised classification algorithms,” International conference on computational science and its applications, 2018 [16] V.R Martinho, C Nunes, C.R Minussi, “Prediction of school dropout risk group using neural network,” 2013 federated conference on computer science and information systems, 2013 [17] J.Burez, D.Van den Poel, “Handling class imbalance in customer churn prediction,” Expert Systems with Applications Pergamon, 36(3 PART 1), 2009, p 4626–4636 [18] M Galar, “A review on ensembles for the class imbalance problem: Bagging-, boosting-, and hybrid-based 61 approaches,” IEEE Transactions on Systems, Man and Cybernetics Part C: Applications and Reviews, 2012, pp 463-484 [19] N.V.Chawla, “SMOTE: Synthetic Minority Over-sampling Technique,” Journal of Artificial Intelligence Research, 2022 [20] C.Drummond, R C Holte, “Class Imbalance, and Cost Sensitivity: Why Under-Sampling beats Over-Sampling,” Physical Review Letters, 2003 [21] G.Chandrashekar, F.Sahin, “A survey on feature selection methods,” Computers and Electrical Engineering, 2014, p 16–28 [22] H.V Thanh, Y Sugai, R Nguele, K Sasaki, “Integrated workflow in 3D geological model construction for evaluation of CO2 storage capacity of a fractured basement reservoir in Cuu Long Basin, Vietnam,” International Journal of Greenhouse Gas Control, số 102826, 2019 [23] T He, Z Dong, K Meng, H Wang, Y Oh, “Accelerating multi-layer perceptron based short term demand forecasting using graphics processing units,” 2009 transmission & distribution conference & exposition: Asia and Pacific, 2009 [24] D Hunter, H Yu, M.S Pukish III, J Kolbusz, B.M Wilamowski, “Selection of proper neural network sizes and architectures—a comparative study,” IEEE Transactions on Industrial Informatics, 2012, pp 228-240 [25] R.Hecht-Nielsen, “Theory of the backpropagation neural network,” Neural networks for perception, Elsevier, 1992, pp 65-93 [26] A.G.Ivakhnenko, “Polynomial theory of complex systems,” IEEE transactions on Systems, Man, and Cybernetics, 1971, pp 364-378 [27] J.H.Friedman, “Greedy function approximation: A gradient boosting machine,” Annals of Statistics, 2001, pp 1189-1232 [28] Y Yuan, X Hu, “Random forest and objected-based classification for forest pest extraction from UAV aerial imagery,” The International Archives 62 of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2016, p 1093 [29] L.Breiman, “Random forests,” Machine Learning, 2001, pp 5-32 [30] X Zhu, J Chu, K Wang, S Wu, W Yan, K Chiam, “Prediction of rockhead using a hybrid N-XGBoost machine learning framework,” Journal of Rock Mechanics and Geotechnical Engineering, 2021 [31] T Chen, C Guestrin, “Xgboost: A scalable tree boosting system,” Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016 [32] L Wang, C Wu, L Tang, W Zhang, S Lacasse, H Liu, L Gao, “Efficient reliability analysis of earth dam slope stability using extreme gradient boosting method,” Acta Geotechnica, 2020, pp 3135-3150 [33] J.Muschelli, “ROC and AUC with a binary predictor: A potentially misleading metric,” Journal of Classification, pp 696-708, 2020 [34] Y Koizumi, S Murata, N Harada, S Saito, H Uematsu, “SNIPER: Fewshot learning for anomaly detection to minimize false-negative rate with ensured true-positive rate,” ICASSP 2019-2019 IEEE international conference on acoustics, speech and signal processing (ICASSP, 2019 [35] F Yang, X Wang, H Ma, J Li, “Transformers-sklearn: A toolkit for medical language understanding with transformer-based models,” BMC Medical Informatics and Decision Making, 2021, pp 1-8 [36] Y Zhang, Y Yang, “Cross-validation for selecting a model selection procedure,” Journal of Econometrics, 2015, pp 95-112 [37] V.R Joseph, A Vakayil, “SPlit: An optimal method for data splitting,” Technometrics, 2021, pp 01-11 [38] R Eldan, O Shamir, “The power of depth for feedforward neural networks,” Conference on Learning Theory, 2016 63 [39] F.J Pontes, G Amorim, P.P Balestrassi, A Paiva, J.R Ferreira, “Design of experiments and focused grid search for neural network parameter optimization,” Neurocomputing, 2016, pp 22-34 [40] H Yu, B.M Wilamowski, “Levenberg–marquardt training,” Intelligent systems, CRC Press, 2018, pp 12-11-12-16 [41] S Robison, J Jaggers, J Rhodes, B.J Blackmon, W Church, “Correlates of educational success: Predictors of school dropout and graduation for urban students in the Deep South,” Children and Youth Services Review, 2018, pp 37-46 64

Ngày đăng: 09/10/2023, 18:22

Xem thêm: