i LỜI CAM ĐOAN Tôi xin cam đoan đề tài: “Khai phá dữ liệu giáo dục để dự đoán những học sinh không có khả năng tốt nghiệp - Áp dụng tại một trường cao đẳng ở Bình Dương” là công trình ng
Trang 1ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN THỊ BÍCH NGỌC
KHAI PHÁ DỮ LIỆU GIÁO DỤC ĐỂ DỰ ĐOÁN NHỮNG HỌC SINH KHÔNG CÓ KHẢ NĂNG TỐT NGHIỆP
ÁP DỤNG TẠI MỘT TRƯỜNG CAO ĐẲNG Ở BÌNH DƯƠNG
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SĨ
BÌNH DƯƠNG - 2023
Trang 2ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN THỊ BÍCH NGỌC
KHAI PHÁ DỮ LIỆU GIÁO DỤC ĐỂ DỰ ĐOÁN NHỮNG HỌC SINH KHÔNG CÓ KHẢ NĂNG TỐT NGHIỆP
ÁP DỤNG TẠI MỘT TRƯỜNG CAO ĐẲNG Ở BÌNH DƯƠNG
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
Trang 3i
LỜI CAM ĐOAN
Tôi xin cam đoan đề tài: “Khai phá dữ liệu giáo dục để dự đoán những học sinh
không có khả năng tốt nghiệp - Áp dụng tại một trường cao đẳng ở Bình Dương” là công
trình nghiên cứu của riêng tôi và được sự hướng dẫn khoa học của thầy PGS.TS Trần
Vĩnh Phước
Các số liệu là thực tế, kết quả thực hiện nêu trong luận văn là trung thực và chưa
công bố dưới bất kỳ hình thức nào trước đây
Các tài liệu tham khảo, sản phẩm nghiên cứu sử dụng cho luận văn này được trích
dẫn theo đúng quy định
Bình Dương, ngày 19 tháng 12 năm 2023
Học viên thực hiện luận văn
Nguyễn Thị Bích Ngọc
Trang 4ii
LỜI CẢM ƠN
Lời đầu tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS Trần Vĩnh Phước, thầy đã tận tình chỉ dẫn, định hướng và tạo mọi điều kiện giúp tôi tiếp cận và hoàn thành luận văn này theo đúng yêu cầu
Tôi xin bày tỏ lòng biết ơn đến với quý Thầy Cô giáo trường đại học Thủ Dầu Một đã trang bị cho tôi những kiến thức nền tảng quan trọng và hỗ trợ tận tình trong suốt quá trình tôi theo học
Mặc dù đã nỗ lực hết mình, tôi biết rằng trong luận văn này vẫn còn những thiếu sót không thể tránh khỏi Tôi rất mong nhận được những ý kiến đóng góp của Thầy Cô
để tôi có thể hoàn thiện hơn đề tài của mình
Xin trân trọng cảm ơn
Bình Dương, ngày 19 tháng 12 năm 2023
Học viên thực hiện luận văn
Nguyễn Thị Bích Ngọc
Trang 5iii
TÓM TẮT LUẬN VĂN THẠC SĨ
Luận văn này khám phá việc áp dụng học máy trong dự đoán khả năng tốt nghiệp của học sinh trung cấp chuyên nghiệp ngành kế toán doanh nghiệp Nghiên cứu phân tích 660 mẫu dữ liệu để xác định các yếu tố ảnh hưởng đến kết quả học tập và tốt nghiệp
Sử dụng phương pháp Robust Scaling cho việc chuẩn hóa dữ liệu, SMOTE để cải thiện cân bằng dữ liệu, và PCA nhằm giảm số chiều dữ liệu Các mô hình học máy như AdaBoost, XGBoost, Logistic Regression, SVM, và Naive Bayes được đánh giá để tìm
ra mô hình phù hợp nhất Mục tiêu của nghiên cứu là cung cấp thông tin hữu ích giúp nâng cao chất lượng giáo dục và hỗ trợ học sinh, góp phần giảm thiểu tình trạng thôi học và tăng tỷ lệ tốt nghiệp
Trang 6iv
ABSTRACT
This thesis explores the application of machine learning in predicting the
graduation likelihood of vocational students in the field of business accounting The
study analyzes 660 data samples to determine the factors influencing academic
outcomes and graduation rates It utilizes Robust Scaling for data normalization,
SMOTE for improving data balance, and PCA for dimensionality reduction Machine
learning models such as AdaBoost, XGBoost, Logistic Regression, SVM, and Naive
Bayes are evaluated to identify the most suitable one The aim of the research is to
provide valuable information for enhancing educational quality and supporting students,
thereby reducing dropout rates and increasing graduation probabilities
Trang 7v
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
TÓM TẮT LUẬN VĂN THẠC SĨ iii
MỤC LỤC v
Danh mục từ viết tắt vii
Danh mục bảng biểu viii
Danh mục hình ảnh ix
MỞ ĐẦU 1
CHƯƠNG 1: BỐI CẢNH VÀ CÁC NGHIÊN CỨU LIÊN QUAN 4
1.1 Tình trạng bỏ học và khả năng tốt nghiệp của học sinh tại các trường nghề 4 1.2 Tổng quan tình hình nghiên cứu 4
KẾT LUẬN CHƯƠNG 1 8
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 9
2.1 Khai phá dữ liệu trong giáo dục 9
2.2 Các phương pháp trong khai phá dữ liệu 9
2.3 Các thuật toán học máy cổ điển 10
2.3.1Hồi quy Logistic 10
2.3.2Support Vector Machine – SVM 11
2.3.3Naive Bayes 12
2.4 Học kết hợp 14
2.4.1 Adaptive Boosting 15
2.4.2 Gradient Boosting 17
2.5 Kỹ thuật lấy mẫu OverSampling SMOTE 20
2.6 Phương pháp đánh giá và đo lường hiệu suất mô hình 22
KẾT LUẬN CHƯƠNG 2 24
CHƯƠNG 3: MÔ HÌNH DỰ ĐOÁN NHỮNG HỌC SINH KHÔNG CÓ KHẢ NĂNG TỐT NGHIỆP 25
3.1 Phát biểu bài toán 25
3.2 Thu thập bộ dữ liệu 25
3.3 Tiền xử lý và phân tích dữ liệu 28
3.3.1 Outlier 30
Trang 8vi
3.3.2 Phân tích tương quan 33
3.3.3 Chuẩn hóa và giảm chiều dữ liệu 36
3.4 Thực nghiệm và đánh giá kết quả 39
KẾT LUẬN CHƯƠNG 3 44
KẾT LUẬN 45
TÀI LIỆU THAM KHẢO 46
Trang 9vii
DANH MỤC TỪ VIẾT TẮT
STT Từ viết tắt Viết rõ
9 SMOTE Synthetic Minority Over-sampling
Trang 10viii
DANH MỤC BẢNG BIỂU
Bảng 3.1: Thông tin môn học trong học kì 1 26
Bảng 3.2: Thông tin môn học trong học kì 2 27
Bảng 3.3: Thông tin các thuộc tính 29
Bảng 3.4: Kết quả phân tích các ngoại lệ 32
Bảng 3.5: Mối quan hệ giữa các biến Tuoi, GT, Noi-o và biến mục tiêu Trang_thai 36
Bảng 3.6: phương sai giải thích từng phần cho 14 thông số chính của PCA 38
Bảng 3.7: Kết quả phân tích dữ liệu và hướng giải quyết 39
Bảng 3.8: Bảng kết quả đánh giá hiệu suất mô hình trên bộ dữ liệu không cân bằng 40
Bảng 3.9: Bảng kết quả đánh giá hiệu suất của mô hình với kỹ thuật SMOTE 41
Bảng 3.10: Bảng thành phần ma trận nhầm lẫn các mô hình 42
Bảng 3.11: Bảng kết quả đánh giá hiệu suất của mô hình áp dụng PCA 43
Trang 11ix
DANH MỤC HÌNH ẢNH
Hình 2.1: Khai phá dữ liệu trong giáo dục 9
Hình 2.2: Hồi quy Logistic 10
Hình 2.3: Phân loại với SVM 11
Hình 2.4: Phân loại với Naive Bayes 13
Hình 2.5: Tổng quát về Ensemble Learning 14
Hình 2.6: Quá trình huấn luyện một mô hình boosting 15
Hình 2.7: Các bước thực hiện thuật toán Adaboost 16
Hình 2.8: Phương pháp huấn luyện mô hình theo Gradient Boosting 18
Hình 2.9: Minh họa sinh mẫu mới bằng kỹ thuật SMOTE 21
Hình 2.10: Mẫu dữ liệu được sinh bằng kỹ thuật SMOTE 21
Hình 2.11: Ma trận nhầm lẫn 22
Hình 2.12: Xác thực chéo k-fold 24
Hình 3.1: Biến mục tiêu Trang_thai 30
Hình 3.2: Biểu đồ phân phối dữ liệu 31
Hình 3.3: Ma trận tương quan giữa các biến 33
Hình 3.4: Ma trận tương quan giữa các biến với ngưỡng 0.7 34
Hình 3.5: Ma trận tương quan giữa các biến so với biến mục tiêu Trang_thai 34
Hình 3.6: Biểu đồ tương quan giữa biến N1, N2 với biến Trang_thai 35
Hình 3.7: Biểu đồ Scree 37
Hình 3.8: Bản đồ nhiệt của tải trọng thành phần PCA 38
Hình 3.9: Confusion Matrix các mô hình trên tập kiểm tra với kỹ thuật SMOTE 41
Hình 3.10: Confusion Matrix các mô hình áp dụng PCA 42
Trang 12Khai phá dữ liệu giáo dục và áp dụng các phương pháp học máy cĩ thể giúp nhận diện học sinh cĩ nguy cơ khơng tốt nghiệp Điều này cho phép nhà trường, giáo viên can thiệp kịp thời và cung cấp các biện pháp hỗ trợ để giúp học sinh cải thiện kết quả học tập và tăng cơ hội tốt nghiệp Các kết quả phân tích dữ liệu cung cấp thơng tin quan trọng để định hướng chính sách giáo dục, từ việc cải thiện chất lượng giảng dạy, đào tạo giáo viên, đến xây dựng mơi trường học tập tốt hơn
Dự báo kết quả học tập của HSSV là điều cần thiết để các em lập kế hoạch với phương pháp học tập hiệu quả nhằm nâng cao kết quả học tập từ đĩ giúp giảm thiểu tình trạng thơi học giữa chừng và nâng cao tỷ lệ tốt nghiệp của HSSV
2 Mục tiêu nghiên cứu
Đề tài “Khai phá dữ liệu giáo dục để dự đốn những học sinh khơng cĩ khả năng tốt nghiệp - Áp dụng tại một trường cao đẳng ở Bình Dương” được đặt ra nhằm phát hiện sớm những HSSV khơng cĩ khả năng hồn thành chương trình học
Đề tài nghiên cứu cần xác định các mục tiêu sau:
- Xác định các yếu tố ảnh hưởng đến kết quả học tập và khả năng thơi học của học sinh
- Áp dụng các thuật tốn khai phá dữ liệu để đánh giá các mơ hình dự báo kết quả học tập của học sinh
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Nghiên cứu này tập trung vào việc áp dụng các mơ hình
dự báo sử dụng thuật tốn học máy và khai phá dữ liệu, bao gồm 2 mơ hình hiện đại AdaBoost, XGBoost và 3 mơ hình cổ điển là hồi quy Logistic, Support vector machine, Nạve Bayes trên bộ dữ liệu đã chuẩn hĩa Bên cạnh việc lựa chọn mơ hình hiệu quả
Trang 132
nhất cho việc dự báo kết quả tốt nghiệp, nghiên cứu cũng đặc biệt chú trọng vào xử lý
dữ liệu mất cân bằng thông qua phương pháp SMOTE để tăng cường khả năng học của
mô hình từ dữ liệu không cân xứng Nghiên cứu các phương pháp giảm chiều dữ liệu, các phương pháp đánh giá mô hình như ma trận nhầm lẫn, độ đo recall, F2 Score, … nhằm đảm bảo rằng mô hình được đánh giá một cách toàn diện và chính xác
Phạm vi nghiên cứu: Bộ dữ liệu thu thập được từ 660 HSSV ngành Kế toán doanh nghiệp hệ TCCN trường Cao đẳng Việt Nam – Hàn Quốc Bình Dương
4 Phương pháp nghiên cứu
Về lý thuyết:
− Nghiên cứu tổng quan về khai phá dữ liệu
− Nghiên cứu các yếu tố ảnh hưởng đến kết quả học tập của học sinh và xác định mẫu dữ liệu
− Nghiên cứu về một số kỹ thuật khai phá dữ liệu: Phân tích hồi quy, Phân lớp, Khai thác dữ liệu kết hợp (Ensemble Data Mining)
− Nghiên cứu công cụ khai phá dữ liệu
5 Đóng góp của đề tài luận văn
Nghiên cứu giúp phân tích các yếu tố ảnh hưởng đến kết quả học tập của học sinh ngành Kế toán doanh nghiệp hệ TCCN trường Cao đẳng Việt Nam – Hàn Quốc Bình Dương
Nghiên cứu áp dụng các thuật toán học máy để lựa chọn mô hình dự đoán những học sinh không có khả năng tốt nghiệp Kết quả nghiên cứu cung cấp thông tin dự đoán kết quả học tập từ đó học sinh điều chỉnh và lập kế hoạch để học tập đạt kết quả cao hơn
Kết quả nghiên cứu là cơ sở cho việc nhà quản lý, giáo viên chủ nhiệm nắm bắt tình hình kết quả học tập của học sinh từ đó có những kế hoạch kích thích cần thiết để làm tăng hiệu quả học tập của học sinh, giảm thiểu số lượng học sinh thôi học
6 Kết cấu luận văn
Trang 143
Luận văn gồm phần Mở đầu, Kết luận và được chia thành 3 chương, cụ thể như
sau:
Mở đầu: Giới thiệu lý do thực hiện đề tài, mục tiêu nghiên cứu, đối tượng và
phạm vi nghiên cứu, phương pháp nghiên cứu, đóng góp của đề tài luận văn và kết cấu
luận văn
Chương 1: Bối cảnh và các nghiên cứu liên quan
Trình bày về bối cảnh và các nghiên cứu liên quan, cung cấp cái nhìn tổng quan
về tình trạng thôi học và vai trò của khai phá dữ liệu trong giáo dục, đồng thời đề cập
đến các nghiên cứu tiền nghiệm liên quan
Chương 2: Cơ sở lý thuyết
Giới thiệu về khai phá dữ liệu trong giáo dục, cũng như các phương pháp và thuật
toán học máy sử dụng trong nghiên cứu
Chương 3: Mô hình dự đoán những học sinh không có khả năng tốt nghiệp
Giới thiệu về bộ dữ liệu của mô hình, cách xử lý dữ liệu, lựa chọn và đánh giá
các mô hình học máy
Kết luận
Tóm tắt các phát hiện chính của nghiên cứu, đóng góp của đề tài đối với lĩnh vực
giáo dục và khai phá dữ liệu, cũng như hướng phát triển tiếp theo
Trang 154
CHƯƠNG 1: BỐI CẢNH VÀ CÁC NGHIÊN CỨU LIÊN QUAN
Chương này đề cập vấn đề thôi học, khả năng tốt nghiệp của học sinh ở các trường nghề và các nghiên cứu liên quan về ứng dụng của học máy, khai phá dữ liệu trong giáo dục
1.1 Tình trạng bỏ học và khả năng tốt nghiệp của học sinh tại các trường nghề
Theo đề án Giáo dục hướng nghiệp và định hướng phân luồng học sinh trong giáo dục phổ thông, dự kiến đến năm 2025, ít nhất 40% học sinh tốt nghiệp THCS (15 tuổi) tiếp tục học tập tại các cơ sở giáo dục nghề nghiệp đào tạo trình độ sơ cấp, trung cấp Các chính sách khuyến nghề hiện nay đều hướng tới đối tượng này như: miễn học phí học nghề, tốt nghiệp THCS học liên thông lên cao đẳng Tuy nhiên, chính các em lại là đối tượng dễ bỏ học nhất Tỷ lệ bỏ học tại các trường luôn duy trì ở mức từ 30% đến 50% [12] Có muôn vàn lý do để dẫn đến hiện trạng này Việc chọn học nghề sau khi tốt nghiệp trung học cơ sở không phải là ưu tiên hàng đầu đối với nhiều phụ huynh và học sinh Thông thường, chỉ khi học sinh không đạt được kết quả học tập cao hoặc không thi đậu vào trung học phổ thông, họ mới xem xét đến lựa chọn này Nhiều em theo học nhưng nhận thức về việc học nghề, làm nghề còn hạn chế, chưa xác định được định hướng tương lai của bản thân Một số ít do hoàn cảnh gia đình hoặc do chọn sai ngành, chán nên nghỉ Nhiều em ý thức kém, không chấp hành các nội quy, quy định của nhà trường nên bị kỷ luật, lưu ban, buộc phải thôi học hoặc nợ quá nhiều môn học dẫn đến không thể tốt nghiệp đúng hạn Một số khác do hoàn cảnh khó khăn nên phải nghỉ học
đi làm sớm để phụ giúp gia đình Việc HSSV bỏ học gây ra lãng phí tiền của, thời gian, ảnh hưởng đến tổng thể các kế hoạch phát triển chung và bền vững của mỗi nhà trường Sau khi nghỉ học, nhiều em trong số đó vướng vào các tệ nạn xã hội hoặc không xin được việc làm do không đủ bằng cấp, trình độ Các cơ sở giáo dục nghề nghiệp, nhất là các trường trung cấp, đang đối mặt với nhiều khó khăn không chỉ trong việc tuyển sinh
mà còn trong việc giữ chân người học Khó khăn này phản ánh thách thức lớn trong việc thay đổi nhận thức và quan điểm về giáo dục nghề nghiệp trong xã hội hiện đại
1.2 Tổng quan tình hình nghiên cứu
Hiện nay, việc sử dụng khai phá dữ liệu trong lĩnh vực giáo dục đã thu hút sự chú
ý lớn từ các nhà nghiên cứu trên toàn thế giới Một ứng dụng quan trọng của trí tuệ nhân tạo là máy học, được chia thành nhiều dạng như học không giám sát, học có giám sát, học bán giám sát và học tăng cường Học có giám sát và học không giám sát là hai
Trang 165
phương pháp phổ biến hiện nay Trong học có giám sát, dữ liệu có nhãn được sử dụng
để phân loại, dự đoán hoặc gợi ý Trong khi đó, học không giám sát sử dụng dữ liệu không có nhãn để tìm hiểu mối quan hệ và cấu trúc dữ liệu Học bán giám sát và học tăng cường thường được áp dụng trong các bài toán phân loại và phát hiện gian lận Các thuật toán máy học thường được viết bằng Python, với sự hỗ trợ của các thư viện quan trọng như Pandas, Numpy, Matplotlib, Seaborn và Scikit-learn Hai ứng dụng phổ biến
là Google Colab và Kaggle đã giúp tạo ra các tập dữ liệu và tiến hành xử lý mạnh mẽ để phục vụ cho việc phân tích sâu hơn
Trong thời gian gần đây, đã có nhiều nghiên cứu về dự đoán kết quả học tập của HSSV sử dụng các phương pháp máy học
Nghiên cứu trong nước:
Năm 2016, Nguyễn Thái Nghe “Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập” [3] Tác giả giới thiệu một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế hoạch học tập thông qua việc sử dụng các phương pháp dự đoán trong khai phá dữ liệu Trong đó, nhóm nghiên cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá nhân hóa như mạng Bayes và Cây quyết định Nhóm nghiên cứu thứ hai liên quan đến việc sử dụng giải thuật cá nhân hóa – lấy ý tưởng từ các kỹ thuật trong hệ thống gợi ý - như kỹ thuật phân rã ma trận thiên vị (Biased Matrix Factorization) nhằm dự đoán kết quả học tập cho từng cá nhân sinh viên, từ đó hỗ trợ lựa chọn môn học phù hợp với năng lực của từng cá nhân Kết quả
từ các nghiên cứu này đã cho thấy sử dụng phương pháp máy học trong dự đoán kết quả học tập của sinh viên là khả thi và có thể ứng dụng trong thực tế tại các trường đại học
Năm 2016, Đặng Văn Lực “Phân tích dữ liệu tạo cảnh báo học tập bằng mô hình hồi quy Logistic” [2] Nghiên cứu giới thiệu về mô hình hồi quy Logistic, phương pháp ước lượng tham số và kiểm định kết quả thống kê đối với mô hình hồi quy Logistic từ
đó đưa ra mô hình dự đoán tối ưu nhất dựa trên dữ liệu thu thập từ học sinh TCCN hệ THCS tại trường Trung cấp Kỹ thuật và Nghiệp vụ Nam Sài Gòn
Năm 2019, Nguyễn Thị Uyên, Nguyễn Minh Tâm “Dự đoán kết quả học tập của sinh viên bằng kỹ thuật khai phá dữ liệu” [6] Nghiên cứu đề xuất phương pháp cho phép
dự đoán được khả năng bị buộc ngừng học dựa vào phân tích dữ liệu từ điểm thi đầu vào, điểm thi các môn của ba học kỳ đầu và tình trạng hiện thời (tiếp tục học hoặc ngừng
Trang 17ở các môn học Ngôn ngữ Lập trình C, Toán A2 (Giải tích I), Tư tưởng Hồ Chí Minh và
có điểm thấp khi thi đầu vào đại học thì có xu thế bị buộc ngừng học Ngoài ra yếu tố quê quán cũng ảnh hưởng cao đến tình trạng ngừng học của sinh viên Những sinh viên cùng quê thường có xu hướng đạt kết quả học tập tương tự nhau
Năm 2020, Nguyễn Mạnh Hùng và các cộng sự “Các yếu tố ảnh hưởng đến kết quả học tập của sinh viên hệ chính quy tại trường Đại học Kinh Tế, Đại Học Huế” [1] Nghiên cứu này vận dụng phương pháp phân tích hàm hồi quy tuyến tính đa biến để ước lượng mức độ và chiều hướng tác động của những yếu tố đến kết quả học tập (KQHT) của sinh viên Kết quả cho thấy KQHT của sinh viên chịu ảnh hưởng của những yếu tố như: điểm tuyển sinh đầu vào, giới tính, khoa đào tạo, khóa học và nơi thường trú của sinh viên Trong đó, những sinh viên có điểm tuyển sinh đầu vào càng cao thì có KQHT đại học càng cao và ngược lại; sinh viên nữ có thành tích học tập tốt hơn so với nam giới; những sinh viên thường trú tại thành phố Huế trong thời gian học đại học có KQHT thấp hơn so với những sinh viên thường trú ngoài thành phố Huế
Năm 2020, Võ Đức Quang và các cộng sự “Ứng dụng kỹ thuật học máy trên dữ liệu mất cân bằng hỗ trợ dự đoán sớm khả năng thôi học của học sinh trung học phổ thông” [4] Nghiên cứu đề xuất một mô hình học máy cho bài toán phân lớp trên tập dữ liệu mất cân bằng, trong đó sử dụng kết hợp kỹ thuật sinh mẫu tổng hợp SMOTE và giải thuật AdaBoost cho thuật toán Cây quyết định Các tác giả đã tiến hành thực nghiệm đánh giá so sánh hiệu quả phân lớp của mô hình đã đề xuất với các giải thuật Cây quyết định sử dụng entropy và chỉ số Gini trên bộ dữ liệu thực tế thu thập tại Trường trung học phổ thông (THPT) Đông Hiếu, Thái Hòa, Nghệ An từ năm 2014 đến năm 2019 Các kết quả thực nghiệm chỉ ra rằng khi kết hợp kỹ thuật sinh mẫu tổng hợp SMOTE với giải thuật AdaBoost với các giải thuật Cây quyết định cho chất lượng tốt hơn việc chỉ dùng các giải thuật Cây quyết định thuần túy khi ứng dụng trên bộ dữ liệu mất cân bằng
Trang 18đã tốt nghiệp khoa Công nghệ thông tin nhằm phân tích, đánh giá mối quan hệ giữa kết quả học tập và cơ hội việc làm, từ đó hỗ trợ cho việc định hướng học tập và nghề nghiệp cho sinh viên trong tương lai
Nghiên cứu quốc tế:
Năm 2021, Anupam Khan và Soumya K Ghosh “Student performance analysis and prediction in classroom learning: A review of educational data mining studies” [7] Bài viết là một bản đánh giá hệ thống các nghiên cứu trong lĩnh vực Khai thác Dữ liệu Giáo dục (EDM), tập trung vào hiệu suất học tập của học sinh Phân tích 140 bài báo tiếng Anh từ năm 2000 đến 2018 thu thập được thông qua công cụ Elsevier và Google Scholar Xác định các yếu tố dự đoán, phương pháp sử dụng cho việc dự đoán và mục tiêu của những dự đoán này Bài đánh giá đã đạt được những hiểu biết quan trọng về việc dự đoán hiệu suất học sinh trong thời gian khóa học, nhưng dự đoán sớm vẫn còn
là thách thức Bài báo nhằm mục tiêu thúc đẩy dự đoán điểm và phát triển hệ thống giáo dục thông minh
Năm 2019, Chitra Jalota và Dr Rashmi Agrawal “Analysis of Educational Data Mining using classification” [10] Nghiên cứu về các kỹ thuật khai thác dữ liệu khác nhau để dự đoán hiệu suất học tập của sinh viên bằng cách sử dụng bộ dữ liệu của kalboard 360 và áp dụng nó trên weka để phân tích các kỹ thuật khai thác dữ liệu
Năm 2020, MohammadNoor Injadat và các cộng sự “Systematic Ensemble Model Selection Approach for Educational Data Mining” [9] Nghiên cứu này tập trung vào việc dự đoán hiệu suất học tập thông qua phân tích hai bộ dữ liệu ở hai giai đoạn khác nhau, sử dụng các kỹ thuật đồ họa, thống kê và định lượng Kết quả phân tích giúp lựa chọn và tinh chỉnh thuật toán phân loại Mô hình học kết hợp (Ensemble Learning) dựa trên chỉ số Gini và giá trị p được đề xuất để dự đoán học sinh cần hỗ trợ trong học tập
Năm 2023, E Mashagba, F Al-Saqqar và A Al-Shatnawi "Using Gradient Boosting Algorithms in Predicting Student Academic Performance" [11] Nghiên cứu
Trang 198
đề xuất một phương pháp mới là thuật toán Gradient Boosting để phân tích hiệu suất học tập của sinh viên Cụ thể, phương pháp này triển khai các thuật toán XGBoost, CatBoost và LightGBM Phương pháp bao gồm hai mô hình dự đoán: mô hình dự đoán kết quả học tập của sinh viên và mô hình đánh giá sinh viên Kết quả cho thấy thuật toán CatBoost đạt được kết quả dự đoán tốt nhất, với độ chính xác lên đến 92.16% cho mô hình dự đoán kết quả học tập của sinh viên và 86.89% cho mô hình đánh giá sinh viên LightGBM thì đạt kết quả tốt nhất về tốc độ
KẾT LUẬN CHƯƠNG 1
Kết thúc chương này, chúng ta đã có cái nhìn tổng quan về tình trạng thôi học tại các trường nghề và vai trò của khai phá dữ liệu trong việc giải quyết vấn đề này Các nghiên cứu liên quan đã cho thấy tiềm năng của việc sử dụng dữ liệu để dự báo và cải thiện hiệu quả giáo dục, mở ra hướng đi mới cho nghiên cứu và ứng dụng trong lĩnh vực
giáo dục nghề nghiệp
Trang 209
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
Chương này giới thiệu về các kỹ thuật và thuật toán cốt lõi trong khai phá dữ liệu giáo dục Bắt đầu với một cái nhìn tổng quan về khái niệm và ứng dụng của khai phá dữ liệu trong giáo dục, chương tiếp tục giới thiệu các phương pháp trong khai phá dữ liệu các thuật toán học máy
2.1 Khai phá dữ liệu trong giáo dục
Khai phá dữ liệu là lĩnh vực nghiên cứu để trích xuất thông tin từ một bộ dữ liệu
và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp Quá trình khai phá dữ liệu là quá trình khám phá kiến thức có trong cơ sở dữ liệu [7] Khai phá dữ liệu trong giáo dục (EDM) là quá trình sử dụng các phương pháp và kỹ thuật khai phá dữ liệu để khám phá thông tin hữu ích, mẫu mực, và tri thức từ dữ liệu liên quan đến lĩnh vực giáo dục Mục tiêu của khai phá dữ liệu trong giáo dục là tìm ra các mẫu, quy luật, và thông tin tiềm ẩn
từ các tập dữ liệu về học tập, hành vi của học sinh, hiệu suất học tập, và các yếu tố khác liên quan đến quá trình giảng dạy và học tập
Các kỹ thuật khai phá dữ liệu trong giáo dục thường sử dụng các phương pháp học máy, thống kê, và trí tuệ nhân tạo để phân tích dữ liệu và tạo ra các mô hình dự đoán hoặc mô hình tìm hiểu từ dữ liệu học tập Các kết quả của khai phá dữ liệu có thể giúp người quản lý giáo dục, giáo viên và học sinh có cái nhìn sâu sắc hơn về quá trình học tập, giúp cải thiện chất lượng giảng dạy và hỗ trợ định hướng học tập cho học sinh
Hình 2.1: Khai phá dữ liệu trong giáo dục
2.2 Các phương pháp trong khai phá dữ liệu
Phân lớp (Classification): xác định một hàm ánh xạ các mục dữ liệu vào một trong nhiều lớp đã được xác định trước Trong giáo dục, phân lớp thường được sử dụng
để xác định học sinh có khả năng cao hoặc thấp trong việc đạt được các kết quả học tập nhất định
Trang 2110
Phân cụm (Clustering): là việc nhóm các đối tượng tương tự nhau dựa trên các đặc điểm của chúng mà không cần thông tin về nhãn lớp Phân cụm có thể được sử dụng
để phát hiện các nhóm học sinh có hành vi học tập tương tự
Hồi quy (Regression): được sử dụng để mô hình hóa và phân tích mối quan hệ giữa các biến số Trong hồi quy, chúng ta cố gắng xác định hàm ánh xạ từ một hoặc nhiều biến độc lập (predictors) đến một biến phụ thuộc (target) Trong giáo dục, hồi quy thường được sử dụng để dự đoán kết quả học tập dựa trên một loạt các biến đầu vào
Luật kết hợp (Association Rule Mining): tìm ra các mối quan hệ hay quy luật giữa các biến trong dữ liệu Phương pháp này giúp phát hiện các mối quan hệ và quy luật không rõ ràng giữa các yếu tố ảnh hưởng đến kết quả học tập
2.3 Các thuật toán học máy cổ điển
2.3.1 Hồi quy Logistic
Hồi quy Logistic là một phương pháp hồi quy được sử dụng cho các biến phụ thuộc nhị phân, nơi biến đầu ra là dạng phân loại với hai lớp (0 hoặc 1) Mô hình này ước lượng xác suất để một sự kiện cụ thể xảy ra dựa trên một hoặc nhiều biến độc lập
Hình 2.2: Hồi quy Logistic
Hồi quy Logistic sử dụng một hàm logistic để mô hình hóa xác suất p của một sự kiện, với công thức:
Trang 2211
𝑋1, 𝑋2, , 𝑋𝑛 là các biến độc lập
𝑏0 là hệ số chặn (intercept)
𝑏1, 𝑏2, , 𝑏𝑛 là hệ số của mỗi biến độc lập 𝑋1, 𝑋2, , 𝑋𝑛
Ưu điểm và nhược điểm của hồi quy Logistic:
Giới hạn bởi mối quan hệ tuyến tính
Không giải quyết tốt với dữ liệu phức tạp
Không phù hợp với số lượng lớn các tính năng Khi có quá nhiều tính năng, mô hình có thể trở nên quá phức tạp và có nguy cơ overfitting
Nhạy cảm với dữ liệu mất cân đối
2.3.2 Support Vector Machine – SVM
SVM là một mô hình học máy có giám sát được sử dụng phổ biến trong các bài toán phân loại và hồi quy Trong bối cảnh phân loại, SVM phân loại dữ liệu bằng cách tìm ra siêu phẳng (hyperplane) tối ưu nhất trong không gian đa chiều (n-dimensional space) để phân tách các lớp dữ liệu Siêu phẳng này được chọn sao cho khoảng cách từ siêu phẳng đến điểm dữ liệu gần nhất từ mỗi lớp (các support vectors) là lớn nhất
Hình 2.3: Phân loại với SVM
Trang 23w là vector trọng số của siêu phẳng
b là độ lệch (bias)
x𝑖 là điểm dữ liệu thứ i
𝑦𝑖 là nhãn của điểm dữ liệu x𝑖, thường được mã hóa là +1 hoặc -1
Trong trường hợp dữ liệu không tuyến tính, SVM sử dụng hàm nhân (kernel functions) để biến đổi dữ liệu vào không gian đặc trưng cao chiều, nơi việc phân tách lớp trở nên dễ dàng hơn Công thức sau đây tính toán quyết định cho một điểm dữ liệu mới x:
𝑓(x) = sign(∑𝑛𝑖=1𝛼𝑖𝑦𝑖𝐾(x𝑖, x) + 𝑏) (2.3)
Ở đây, K là hàm nhân, và 𝛼𝑖 là các hệ số Lagrange tìm được từ quá trình huấn luyện
Ưu điểm và nhược điểm của SVM:
Ưu điểm: SVM hiệu quả trong việc phân loại các tập dữ liệu phức tạp và có chiều cao, thường cho kết quả tốt trong thực tế, đặc biệt với dữ liệu có nhiều chiều Do việc tối ưu hóa margin, SVM có khả năng chống lại việc overfitting tốt hơn các thuật toán khác Có thể sử dụng nhiều loại hàm nhân khác nhau để xử lý các mối quan hệ dữ liệu phi tuyến
Nhược điểm: Việc sử dụng hiệu quả SVM đòi hỏi sự cân nhắc và chuyên môn kỹ thuật Việc lựa chọn hàm nhân, một quyết định quan trọng trong SVM, cần phải dựa trên hiểu biết về cấu trúc và tính chất của dữ liệu Các hàm nhân khác nhau có thể phản ánh các mối quan hệ tính năng một cách khác nhau và có ảnh hưởng lớn đến hiệu suất của mô hình SVM không cung cấp ước lượng xác suất tự nhiên, hiệu suất giảm khi xử
lý dữ liệu lớn, và mô hình có thể trở nên khó giải thích, đặc biệt khi sử dụng kernel phi tuyến
Trang 2413
sự hiện diện của các tính năng khác, điều này thường không đúng trong thực tế, nhưng thuật toán này vẫn hoạt động tốt trong nhiều trường hợp
Hình 2.4: Phân loại với Naive Bayes
Định lý Bayes được biểu diễn bằng công thức sau:
𝑃(𝑌|𝑋) = 𝑃(𝑋∣𝑌)𝑃(𝑌)
Trong đó:
𝑃(𝑌|𝑋): xác suất xảy ra sự kiện Y khi sự kiện X xảy ra
𝑃(𝑋 ∣ 𝑌): xác suất xảy ra sự kiện X khi sự kiện Y xảy ra
𝑃(𝑌): xác suất của việc xuất hiện lớp Y trước khi quan sát dữ liệu
𝑃(𝑋): xác suất tổng thể của việc quan sát dữ liệu X mà không phụ thuộc vào lớp của dữ liệu
Trong phân loại Naive Bayes, chúng ta sử dụng công thức này để tính xác suất mỗi lớp cho một điểm dữ liệu cụ thể và dự đoán lớp có xác suất cao nhất Công thức cuối cùng cho việc dự đoán lớp 𝐶𝑘 ới điểm dữ liệu x là:
Trang 25Cách hoạt động chính của Ensemble Learning là sử dụng nhiều mô hình độc lập
để tạo ra một dự đoán chung, thường dựa trên sự kết hợp hoặc biểu quyết của dự đoán
từ các mô hình con (weak learner) Sự đa dạng trong cách mà các mô hình con hoạt động
và sự khác biệt trong cách chúng học từ dữ liệu là yếu tố quan trọng để tăng hiệu suất của Ensemble Learning
Hình 2.5: Tổng quát về Ensemble Learning
Phương pháp tăng cường (Boosting):
Boosting là một kỹ thuật trong học máy thuộc lĩnh vực Ensemble Learning Boosting xây dựng các mô hình tuần tự, mỗi mô hình cố gắng cải thiện các dự đoán sai của mô hình trước đó bằng cách tập trung vào các mẫu bị dự đoán sai
Trang 2615
Hình 2.6: Quá trình huấn luyện một mô hình boosting
Boosting tiến hành đánh trọng số cho các mô hình mới được thêm vào dựa trên các cách tối ưu khác nhau Tùy theo cách đánh trọng số và cách tổng hợp lại các model,
Mỗi một mô hình con được huấn luyện từ bộ dữ liệu được đánh trọng số theo tính toán từ mô hình tiền nhiệm Dữ liệu có trọng số sau đó được đưa vào huấn luyện mô
Trang 2716
hình tiếp theo Đồng thời ta cũng tính ra một trọng số quyết định 𝛼𝑝 thể hiện vai trò của mỗi mô hình ở từng bước huấn luyện Cứ tiếp tục như vậy cho tới khi số lượng mô hình đạt ngưỡng hoặc tập huấn luyện hoàn toàn được phân loại đúng thì dừng quá trình
Kết quả dự báo từ mô hình cuối cùng là một kết hợp từ những mô hình với trọng
số 𝛼𝑖:
𝑓̂(𝑥) = 𝑠𝑖𝑔𝑛(∑𝑝𝑖=1𝛼𝑖𝑓̂𝑖(𝑥)) (2.7) Trong đó: 𝑠𝑖𝑔𝑛(𝑥) = { 1 𝑛ế𝑢 𝑥 > 0
−1 𝑛ế𝑢 𝑥 < 0Các hệ số 𝛼𝑖 được tính từ phương pháp tăng cường, chúng được sử dụng để đánh trọng số mức độ đóng góp từ mỗi một mô hình con 𝑓̂𝑖 trong chuỗi nhằm phân bổ vai trò quyết định trên từng mô hình khác nhau tùy thuộc vào mức độ chính xác của chúng
Khi huấn luyện một mô hình con 𝑓̂𝑖 thì chúng ta áp dụng một trọng số 𝑤𝑗 lên từng quan sát (𝑥𝑗, 𝑦𝑗) sao cho đối với những quan sát bị dự báo sai thì trọng số của nó
sẽ lớn hơn Như vậy ở mô hình tiếp theo sẽ ưu tiên dự báo đúng những quan sát này hơn
so với những quan sát đã được dự báo đúng
Ở thời điểm khởi đầu thì chúng ta gán 𝑤𝑗 = 1
𝑁, ∀𝑗 = 1, 𝑁̅̅̅̅̅
Các bước của thuật toán AdaBoosting:
Hình 2.7: Các bước thực hiện thuật toán Adaboost
− Khởi tạo trọng số quan sát 𝑤𝑖 = 1
Trang 28𝑤𝑖𝑒𝛼 𝑏 𝑛ế𝑢 𝑦𝑖 ≠ 𝑓̂𝑏(𝑥𝑖)Sau khi tính xong các trọng số 𝑤𝑖 thì giá trị của chúng sẽ được chuẩn hoá bằng cách chia cho ∑𝑁𝑖=1𝑤𝑖
− Có thể sử dụng nhiều bộ phân loại cơ sở với AdaBoost
− Adaboost không dễ bị quá khít với dữ liệu
Nhược điểm
− Adaboost nhạy cảm với dữ liệu nhiễu
− Bị ảnh hưởng bởi các yếu tố ngoại lai vì nó cố gắng khớp từng điểm một cách hoàn hảo
− Chạy chậm hơn XGBoost
2.4.2 Gradient Boosting
Tương tự như AdaBoosting, Gradient Boosting cũng huấn luyện liên tiếp các mô hình yếu Tuy nhiên, Gradient Boosting không sử dụng sai số của mô hình để tính toán trọng số cho dữ liệu huấn luyện mà sử dụng phần dư Xuất phát từ mô hình hiện tại, quá
Trang 2918
trình xây dựng mô hình tiếp theo tập trung vào việc khắc phục sự chênh lệch còn tồn đọng giữa dự đoán của mô hình hiện tại và giá trị thực tế Điều đặc biệt trong quá trình này là chúng ta không cố gắng dự đoán trực tiếp giá trị biến mục tiêu y, mà thay vào đó, chúng ta tập trung vào việc dự đoán và điều chỉnh sai số của mô hình trước đó Sau đó
sẽ tích hợp mô hình huấn luyện mới vào hàm dự đoán ban đầu để dần dần cập nhật phần
dư Mỗi cây quyết định trong chuỗi mô hình sẽ được xây dựng với kích thước nhỏ và có chỉ một vài nút quyết định, được xác định bởi tham số độ sâu d
Hình 2.8: Phương pháp huấn luyện mô hình theo Gradient Boosting
Các bước của thuật toán Gradient Boosting:
Tree 1: Cây đầu tiên được huấn luyện trên dữ liệu gốc (X, y), nơi y là nhãn thực
tế
Residuals r1: Dự đoán của cây đầu tiên 𝑦̂ được sử dụng để tính toán sai số 𝑟1 1 =
𝑦 − 𝑦̂, được gọi là residuals hoặc phần dư 1
Tree 2: Cây thứ hai được huấn luyện không phải để dự đoán y, mà là để dự đoán residuals r1 từ cây đầu tiên
Residuals r2: Tương tự như trên, cây thứ hai tạo ra một dự đoán 𝑟̂ và residuals 1mới được tính toán 𝑟2 = 𝑟1− 𝑟̂ 1
Quá trình này tiếp tục với Tree 3, Tree 4, , Tree p cho đến khi đạt được số lượng cây cụ thể hoặc khi lỗi không còn giảm thêm nữa
Tree p: Cây cuối cùng trong chuỗi được huấn luyện để dự đoán residuals từ cây trước nó
Trang 3019
Kỹ thuật này giúp cải thiện hiệu suất dự đoán của mô hình bằng cách giảm bias
và variance qua từng bước lặp
Ưu điểm và nhược điểm của Gradient Boosting
− Khả năng độc lập với mô hình cơ bản: Gradient Boosting không yêu cầu mô hình
cơ bản hoạt động tốt Nó có thể xây dựng một chuỗi các mô hình yếu để cải thiện hiệu suất
Nhược điểm:
− Dễ bị overfitting: Gradient Boosting có khả năng dễ bị overfitting trên các tập dữ liệu nhỏ hoặc khi số lượng cây quyết định trong chuỗi lớn Điều này có thể xảy ra nếu không kiểm soát được các tham số như độ sâu cây, số lượng cây, và tỷ lệ học
− Thời gian huấn luyện lâu: Do việc xây dựng từng cây quyết định trong chuỗi phụ thuộc vào cây trước đó, Gradient Boosting thường tốn thời gian huấn luyện hơn so với một số thuật toán khác như Random Forest
− Nhạy cảm với nhiễu: Gradient Boosting có thể nhạy cảm với các nhiễu lớn hoặc giá trị bất thường trong dữ liệu Các nhiễu này có thể ảnh hưởng đến quá trình học và làm giảm hiệu suất của mô hình.Khó tinh chỉnh tham số: Việc tinh chỉnh tham số trong Gradient Boosting có thể phức tạp và đòi hỏi kiến thức về thuật toán Nếu không tinh chỉnh tham số đúng cách, mô hình có thể không đạt được hiệu suất tốt
XGBOOST
XGBoost là một phiên bản cải tiến và tối ưu hóa của thuật toán Gradient Boosting Thay vì chỉ thực hiện các mô hình tuần tự, XGBoost hỗ trợ việc huấn luyện song song
và phân tán, cho phép tận dụng tối đa tài nguyên tính toán và giảm thời gian huấn luyện
XGBoost có tích hợp chính quy hóa (regularization) vào quá trình học, bao gồm
cả chính quy L1 (Lasso) và L2 (Ridge) Điều này giúp điều chỉnh trọng số và ngăn chặn
Trang 31lý giá trị thiếu sao cho tối ưu hoá độ tinh khiết của các nút cây Khi mô hình xây dựng các nhánh quyết định, nó sẽ cân nhắc xử lý các điểm dữ liệu thiếu trong từng nhánh riêng biệt Việc này giúp mô hình xác định xem có nên chia nhánh dựa trên giá trị thiếu hay không XGBoost cũng thực hiện việc xử lý giá trị thiếu trong quá trình tối ưu hóa các tham số của cây quyết định Việc này giúp tăng cường khả năng mô hình học được
từ dữ liệu có giá trị thiếu
XGBoost sử dụng thuật toán chặt tỉa (Tree Pruning) cây quyết định để loại bỏ các nhánh không cần thiết Việc chặt tỉa được thực hiện bằng cách tính toán một hàm mất mát (loss function) mà đo lường sự cải thiện khi loại bỏ một nhánh Thuật toán sẽ xem xét tất cả các nhánh có thể được loại bỏ và chọn nhánh nào có đóng góp ít nhất vào hiệu suất của mô hình để loại bỏ XGBoost hỗ trợ kiểm tra chéo (cross-validation) để đánh giá hiệu suất của mô hình trên dữ liệu kiểm tra
2.5 Kỹ thuật lấy mẫu OverSampling SMOTE
Mất cân bằng dữ liệu là một trong những hiện tượng phổ biến của bài toán phân loại nhị phân như phát hiện thư rác (spam email), phát hiện gian lận, dự báo nợ xấu, hoặc chẩn đoán bệnh Khi tỷ lệ số lượng mẫu giữa hai lớp gần bằng nhau (ví dụ 50:50),
ta coi đó là trạng thái cân bằng Hầu hết các tập dữ liệu thực tế thường không thể đạt được trạng thái cân bằng và luôn tồn tại sự khác biệt về tỷ lệ giữa hai lớp Trong trường hợp dữ liệu mất cân bằng nhẹ, sự khác biệt này thường không ảnh hưởng nhiều đến khả năng dự đoán của mô hình Tuy nhiên, khi hiện tượng mất cân bằng nghiêm trọng xảy
ra, ví dụ với tỷ lệ 90:10, nó có thể dẫn đến mô hình dự đoán sai lầm nghiêm trọng Bởi
đa phần kết quả dự báo ra thường thiên về một nhóm là nhóm đa số và rất kém trên nhóm thiểu số Giả sử bộ dữ liệu có 100 mẫu với 90 mẫu lớp 1 và 10 mẫu lớp 0 Nếu
mô hình dự đoán đúng 88 mẫu nhãn 1 và 02 mẫu nhãn 0, khi đó tỷ lệ phân loại chính xác đến 90% Tuy nhiên mô hình không có nhiều ý nghĩa vì chỉ dự đoán đúng 02 trong
10 mẫu (20%) của lớp quan trọng là lớp 0 Để giải quyết bài toán phân lớp dữ liệu mất
Trang 3221
cân bằng, có hai hướng tiếp cận chính, là dựa trên mức độ dữ liệu và dựa trên mức độ thuật toán Sinh thêm phần tử lớp thiểu số (Oversampling) và giảm bớt phần tử lớp đa
số (Undersampling) là những phương pháp thường được áp dụng và được chứng minh
là có hiệu quả Trong luận văn này, tôi sử dụng kỹ thuật OverSampling phổ biến SMOTE (Synthetic Minority Over-sampling)
SMOTE giải quyết vấn đề mất cân bằng dữ liệu bằng cách tạo ra các mẫu dữ liệu tổng hợp mới cho lớp thiểu số Phương pháp này chọn ngẫu nhiên một mẫu từ lớp thiểu
số, tìm k-nearest neighbors (k láng giềng) của mẫu đó, thường là từ cùng một lớp, và sau đó tạo ra một mẫu dữ liệu mới nằm trên đường thẳng nối giữa mẫu đã chọn và một trong các neighbors của nó Quá trình này lặp lại cho đến khi số lượng mẫu trong lớp thiểu số được tăng lên, giúp cân bằng số lượng mẫu giữa các lớp trong bộ dữ liệu
Hình 2.9: Minh họa sinh mẫu mới bằng kỹ thuật SMOTE
Hình 2.10: Mẫu dữ liệu được sinh bằng kỹ thuật SMOTE
Trang 3322
2.6 Phương pháp đánh giá và đo lường hiệu suất mô hình
Ma trận nhầm lẫn (Confusion matric): là một kỹ thuật đo hiệu suất các mô hình
True Positive (TP): Số học sinh được dự đoán tốt nghiệp thật
True Negative (TN): Số học sinh được dự đoán không có khả năng tốt nghiệp thật
False Positive (FP): Số học sinh được dự đoán tốt nghiệp nhưng thực tế không có khả năng tốt nghiệp
False Negative (FN): Số học sinh được dự đoán không có khả năng tốt nghiệp nhưng thực tế là tốt nghiệp
Độ chính xác của mô hình được tính theo các phương pháp sau:
Accuracy (độ chính xác): đo lường tỷ lệ dự đoán chính xác trên tổng số mẫu Phương
pháp này không phù hợp cho các bài toán mất cân bằng dữ liệu nếu lớp thiểu số quá nhỏ
𝐴𝑐𝑐 = 𝑇𝑃+𝑇𝑁
Recall (độ nhạy): đo lường khả năng của mô hình trong việc phát hiện và dự đoán
các trường hợp thực sự thuộc lớp tích cực (positive class) một cách chính xác Recall là