1. Trang chủ
  2. » Luận Văn - Báo Cáo

khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương

66 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai phá dữ liệu giáo dục để dự đoán những học sinh không có khả năng tốt nghiệp - Áp dụng tại một trường cao đẳng ở Bình Dương
Tác giả Nguyễn Thị Bích Ngọc
Người hướng dẫn PGS.TS Trần Vĩnh Phước
Trường học Trường Đại học Thủ Dầu Một
Chuyên ngành Hệ Thống Thông Tin
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2023
Thành phố Bình Dương
Định dạng
Số trang 66
Dung lượng 3,64 MB

Nội dung

i LỜI CAM ĐOAN Tôi xin cam đoan đề tài: “Khai phá dữ liệu giáo dục để dự đoán những học sinh không có khả năng tốt nghiệp - Áp dụng tại một trường cao đẳng ở Bình Dương” là công trình ng

Trang 1

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

NGUYỄN THỊ BÍCH NGỌC

KHAI PHÁ DỮ LIỆU GIÁO DỤC ĐỂ DỰ ĐOÁN NHỮNG HỌC SINH KHÔNG CÓ KHẢ NĂNG TỐT NGHIỆP

ÁP DỤNG TẠI MỘT TRƯỜNG CAO ĐẲNG Ở BÌNH DƯƠNG

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN

MÃ SỐ: 8480104

LUẬN VĂN THẠC SĨ

BÌNH DƯƠNG - 2023

Trang 2

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

NGUYỄN THỊ BÍCH NGỌC

KHAI PHÁ DỮ LIỆU GIÁO DỤC ĐỂ DỰ ĐOÁN NHỮNG HỌC SINH KHÔNG CÓ KHẢ NĂNG TỐT NGHIỆP

ÁP DỤNG TẠI MỘT TRƯỜNG CAO ĐẲNG Ở BÌNH DƯƠNG

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN

Trang 3

i

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài: “Khai phá dữ liệu giáo dục để dự đoán những học sinh

không có khả năng tốt nghiệp - Áp dụng tại một trường cao đẳng ở Bình Dương” là công

trình nghiên cứu của riêng tôi và được sự hướng dẫn khoa học của thầy PGS.TS Trần

Vĩnh Phước

Các số liệu là thực tế, kết quả thực hiện nêu trong luận văn là trung thực và chưa

công bố dưới bất kỳ hình thức nào trước đây

Các tài liệu tham khảo, sản phẩm nghiên cứu sử dụng cho luận văn này được trích

dẫn theo đúng quy định

Bình Dương, ngày 19 tháng 12 năm 2023

Học viên thực hiện luận văn

Nguyễn Thị Bích Ngọc

Trang 4

ii

LỜI CẢM ƠN

Lời đầu tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS Trần Vĩnh Phước, thầy đã tận tình chỉ dẫn, định hướng và tạo mọi điều kiện giúp tôi tiếp cận và hoàn thành luận văn này theo đúng yêu cầu

Tôi xin bày tỏ lòng biết ơn đến với quý Thầy Cô giáo trường đại học Thủ Dầu Một đã trang bị cho tôi những kiến thức nền tảng quan trọng và hỗ trợ tận tình trong suốt quá trình tôi theo học

Mặc dù đã nỗ lực hết mình, tôi biết rằng trong luận văn này vẫn còn những thiếu sót không thể tránh khỏi Tôi rất mong nhận được những ý kiến đóng góp của Thầy Cô

để tôi có thể hoàn thiện hơn đề tài của mình

Xin trân trọng cảm ơn

Bình Dương, ngày 19 tháng 12 năm 2023

Học viên thực hiện luận văn

Nguyễn Thị Bích Ngọc

Trang 5

iii

TÓM TẮT LUẬN VĂN THẠC SĨ

Luận văn này khám phá việc áp dụng học máy trong dự đoán khả năng tốt nghiệp của học sinh trung cấp chuyên nghiệp ngành kế toán doanh nghiệp Nghiên cứu phân tích 660 mẫu dữ liệu để xác định các yếu tố ảnh hưởng đến kết quả học tập và tốt nghiệp

Sử dụng phương pháp Robust Scaling cho việc chuẩn hóa dữ liệu, SMOTE để cải thiện cân bằng dữ liệu, và PCA nhằm giảm số chiều dữ liệu Các mô hình học máy như AdaBoost, XGBoost, Logistic Regression, SVM, và Naive Bayes được đánh giá để tìm

ra mô hình phù hợp nhất Mục tiêu của nghiên cứu là cung cấp thông tin hữu ích giúp nâng cao chất lượng giáo dục và hỗ trợ học sinh, góp phần giảm thiểu tình trạng thôi học và tăng tỷ lệ tốt nghiệp

Trang 6

iv

ABSTRACT

This thesis explores the application of machine learning in predicting the

graduation likelihood of vocational students in the field of business accounting The

study analyzes 660 data samples to determine the factors influencing academic

outcomes and graduation rates It utilizes Robust Scaling for data normalization,

SMOTE for improving data balance, and PCA for dimensionality reduction Machine

learning models such as AdaBoost, XGBoost, Logistic Regression, SVM, and Naive

Bayes are evaluated to identify the most suitable one The aim of the research is to

provide valuable information for enhancing educational quality and supporting students,

thereby reducing dropout rates and increasing graduation probabilities

Trang 7

v

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

TÓM TẮT LUẬN VĂN THẠC SĨ iii

MỤC LỤC v

Danh mục từ viết tắt vii

Danh mục bảng biểu viii

Danh mục hình ảnh ix

MỞ ĐẦU 1

CHƯƠNG 1: BỐI CẢNH VÀ CÁC NGHIÊN CỨU LIÊN QUAN 4

1.1 Tình trạng bỏ học và khả năng tốt nghiệp của học sinh tại các trường nghề 4 1.2 Tổng quan tình hình nghiên cứu 4

KẾT LUẬN CHƯƠNG 1 8

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 9

2.1 Khai phá dữ liệu trong giáo dục 9

2.2 Các phương pháp trong khai phá dữ liệu 9

2.3 Các thuật toán học máy cổ điển 10

2.3.1Hồi quy Logistic 10

2.3.2Support Vector Machine – SVM 11

2.3.3Naive Bayes 12

2.4 Học kết hợp 14

2.4.1 Adaptive Boosting 15

2.4.2 Gradient Boosting 17

2.5 Kỹ thuật lấy mẫu OverSampling SMOTE 20

2.6 Phương pháp đánh giá và đo lường hiệu suất mô hình 22

KẾT LUẬN CHƯƠNG 2 24

CHƯƠNG 3: MÔ HÌNH DỰ ĐOÁN NHỮNG HỌC SINH KHÔNG CÓ KHẢ NĂNG TỐT NGHIỆP 25

3.1 Phát biểu bài toán 25

3.2 Thu thập bộ dữ liệu 25

3.3 Tiền xử lý và phân tích dữ liệu 28

3.3.1 Outlier 30

Trang 8

vi

3.3.2 Phân tích tương quan 33

3.3.3 Chuẩn hóa và giảm chiều dữ liệu 36

3.4 Thực nghiệm và đánh giá kết quả 39

KẾT LUẬN CHƯƠNG 3 44

KẾT LUẬN 45

TÀI LIỆU THAM KHẢO 46

Trang 9

vii

DANH MỤC TỪ VIẾT TẮT

STT Từ viết tắt Viết rõ

9 SMOTE Synthetic Minority Over-sampling

Trang 10

viii

DANH MỤC BẢNG BIỂU

Bảng 3.1: Thông tin môn học trong học kì 1 26

Bảng 3.2: Thông tin môn học trong học kì 2 27

Bảng 3.3: Thông tin các thuộc tính 29

Bảng 3.4: Kết quả phân tích các ngoại lệ 32

Bảng 3.5: Mối quan hệ giữa các biến Tuoi, GT, Noi-o và biến mục tiêu Trang_thai 36

Bảng 3.6: phương sai giải thích từng phần cho 14 thông số chính của PCA 38

Bảng 3.7: Kết quả phân tích dữ liệu và hướng giải quyết 39

Bảng 3.8: Bảng kết quả đánh giá hiệu suất mô hình trên bộ dữ liệu không cân bằng 40

Bảng 3.9: Bảng kết quả đánh giá hiệu suất của mô hình với kỹ thuật SMOTE 41

Bảng 3.10: Bảng thành phần ma trận nhầm lẫn các mô hình 42

Bảng 3.11: Bảng kết quả đánh giá hiệu suất của mô hình áp dụng PCA 43

Trang 11

ix

DANH MỤC HÌNH ẢNH

Hình 2.1: Khai phá dữ liệu trong giáo dục 9

Hình 2.2: Hồi quy Logistic 10

Hình 2.3: Phân loại với SVM 11

Hình 2.4: Phân loại với Naive Bayes 13

Hình 2.5: Tổng quát về Ensemble Learning 14

Hình 2.6: Quá trình huấn luyện một mô hình boosting 15

Hình 2.7: Các bước thực hiện thuật toán Adaboost 16

Hình 2.8: Phương pháp huấn luyện mô hình theo Gradient Boosting 18

Hình 2.9: Minh họa sinh mẫu mới bằng kỹ thuật SMOTE 21

Hình 2.10: Mẫu dữ liệu được sinh bằng kỹ thuật SMOTE 21

Hình 2.11: Ma trận nhầm lẫn 22

Hình 2.12: Xác thực chéo k-fold 24

Hình 3.1: Biến mục tiêu Trang_thai 30

Hình 3.2: Biểu đồ phân phối dữ liệu 31

Hình 3.3: Ma trận tương quan giữa các biến 33

Hình 3.4: Ma trận tương quan giữa các biến với ngưỡng 0.7 34

Hình 3.5: Ma trận tương quan giữa các biến so với biến mục tiêu Trang_thai 34

Hình 3.6: Biểu đồ tương quan giữa biến N1, N2 với biến Trang_thai 35

Hình 3.7: Biểu đồ Scree 37

Hình 3.8: Bản đồ nhiệt của tải trọng thành phần PCA 38

Hình 3.9: Confusion Matrix các mô hình trên tập kiểm tra với kỹ thuật SMOTE 41

Hình 3.10: Confusion Matrix các mô hình áp dụng PCA 42

Trang 12

Khai phá dữ liệu giáo dục và áp dụng các phương pháp học máy cĩ thể giúp nhận diện học sinh cĩ nguy cơ khơng tốt nghiệp Điều này cho phép nhà trường, giáo viên can thiệp kịp thời và cung cấp các biện pháp hỗ trợ để giúp học sinh cải thiện kết quả học tập và tăng cơ hội tốt nghiệp Các kết quả phân tích dữ liệu cung cấp thơng tin quan trọng để định hướng chính sách giáo dục, từ việc cải thiện chất lượng giảng dạy, đào tạo giáo viên, đến xây dựng mơi trường học tập tốt hơn

Dự báo kết quả học tập của HSSV là điều cần thiết để các em lập kế hoạch với phương pháp học tập hiệu quả nhằm nâng cao kết quả học tập từ đĩ giúp giảm thiểu tình trạng thơi học giữa chừng và nâng cao tỷ lệ tốt nghiệp của HSSV

2 Mục tiêu nghiên cứu

Đề tài “Khai phá dữ liệu giáo dục để dự đốn những học sinh khơng cĩ khả năng tốt nghiệp - Áp dụng tại một trường cao đẳng ở Bình Dương” được đặt ra nhằm phát hiện sớm những HSSV khơng cĩ khả năng hồn thành chương trình học

Đề tài nghiên cứu cần xác định các mục tiêu sau:

- Xác định các yếu tố ảnh hưởng đến kết quả học tập và khả năng thơi học của học sinh

- Áp dụng các thuật tốn khai phá dữ liệu để đánh giá các mơ hình dự báo kết quả học tập của học sinh

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: Nghiên cứu này tập trung vào việc áp dụng các mơ hình

dự báo sử dụng thuật tốn học máy và khai phá dữ liệu, bao gồm 2 mơ hình hiện đại AdaBoost, XGBoost và 3 mơ hình cổ điển là hồi quy Logistic, Support vector machine, Nạve Bayes trên bộ dữ liệu đã chuẩn hĩa Bên cạnh việc lựa chọn mơ hình hiệu quả

Trang 13

2

nhất cho việc dự báo kết quả tốt nghiệp, nghiên cứu cũng đặc biệt chú trọng vào xử lý

dữ liệu mất cân bằng thông qua phương pháp SMOTE để tăng cường khả năng học của

mô hình từ dữ liệu không cân xứng Nghiên cứu các phương pháp giảm chiều dữ liệu, các phương pháp đánh giá mô hình như ma trận nhầm lẫn, độ đo recall, F2 Score, … nhằm đảm bảo rằng mô hình được đánh giá một cách toàn diện và chính xác

Phạm vi nghiên cứu: Bộ dữ liệu thu thập được từ 660 HSSV ngành Kế toán doanh nghiệp hệ TCCN trường Cao đẳng Việt Nam – Hàn Quốc Bình Dương

4 Phương pháp nghiên cứu

Về lý thuyết:

− Nghiên cứu tổng quan về khai phá dữ liệu

− Nghiên cứu các yếu tố ảnh hưởng đến kết quả học tập của học sinh và xác định mẫu dữ liệu

− Nghiên cứu về một số kỹ thuật khai phá dữ liệu: Phân tích hồi quy, Phân lớp, Khai thác dữ liệu kết hợp (Ensemble Data Mining)

− Nghiên cứu công cụ khai phá dữ liệu

5 Đóng góp của đề tài luận văn

Nghiên cứu giúp phân tích các yếu tố ảnh hưởng đến kết quả học tập của học sinh ngành Kế toán doanh nghiệp hệ TCCN trường Cao đẳng Việt Nam – Hàn Quốc Bình Dương

Nghiên cứu áp dụng các thuật toán học máy để lựa chọn mô hình dự đoán những học sinh không có khả năng tốt nghiệp Kết quả nghiên cứu cung cấp thông tin dự đoán kết quả học tập từ đó học sinh điều chỉnh và lập kế hoạch để học tập đạt kết quả cao hơn

Kết quả nghiên cứu là cơ sở cho việc nhà quản lý, giáo viên chủ nhiệm nắm bắt tình hình kết quả học tập của học sinh từ đó có những kế hoạch kích thích cần thiết để làm tăng hiệu quả học tập của học sinh, giảm thiểu số lượng học sinh thôi học

6 Kết cấu luận văn

Trang 14

3

Luận văn gồm phần Mở đầu, Kết luận và được chia thành 3 chương, cụ thể như

sau:

Mở đầu: Giới thiệu lý do thực hiện đề tài, mục tiêu nghiên cứu, đối tượng và

phạm vi nghiên cứu, phương pháp nghiên cứu, đóng góp của đề tài luận văn và kết cấu

luận văn

Chương 1: Bối cảnh và các nghiên cứu liên quan

Trình bày về bối cảnh và các nghiên cứu liên quan, cung cấp cái nhìn tổng quan

về tình trạng thôi học và vai trò của khai phá dữ liệu trong giáo dục, đồng thời đề cập

đến các nghiên cứu tiền nghiệm liên quan

Chương 2: Cơ sở lý thuyết

Giới thiệu về khai phá dữ liệu trong giáo dục, cũng như các phương pháp và thuật

toán học máy sử dụng trong nghiên cứu

Chương 3: Mô hình dự đoán những học sinh không có khả năng tốt nghiệp

Giới thiệu về bộ dữ liệu của mô hình, cách xử lý dữ liệu, lựa chọn và đánh giá

các mô hình học máy

Kết luận

Tóm tắt các phát hiện chính của nghiên cứu, đóng góp của đề tài đối với lĩnh vực

giáo dục và khai phá dữ liệu, cũng như hướng phát triển tiếp theo

Trang 15

4

CHƯƠNG 1: BỐI CẢNH VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Chương này đề cập vấn đề thôi học, khả năng tốt nghiệp của học sinh ở các trường nghề và các nghiên cứu liên quan về ứng dụng của học máy, khai phá dữ liệu trong giáo dục

1.1 Tình trạng bỏ học và khả năng tốt nghiệp của học sinh tại các trường nghề

Theo đề án Giáo dục hướng nghiệp và định hướng phân luồng học sinh trong giáo dục phổ thông, dự kiến đến năm 2025, ít nhất 40% học sinh tốt nghiệp THCS (15 tuổi) tiếp tục học tập tại các cơ sở giáo dục nghề nghiệp đào tạo trình độ sơ cấp, trung cấp Các chính sách khuyến nghề hiện nay đều hướng tới đối tượng này như: miễn học phí học nghề, tốt nghiệp THCS học liên thông lên cao đẳng Tuy nhiên, chính các em lại là đối tượng dễ bỏ học nhất Tỷ lệ bỏ học tại các trường luôn duy trì ở mức từ 30% đến 50% [12] Có muôn vàn lý do để dẫn đến hiện trạng này Việc chọn học nghề sau khi tốt nghiệp trung học cơ sở không phải là ưu tiên hàng đầu đối với nhiều phụ huynh và học sinh Thông thường, chỉ khi học sinh không đạt được kết quả học tập cao hoặc không thi đậu vào trung học phổ thông, họ mới xem xét đến lựa chọn này Nhiều em theo học nhưng nhận thức về việc học nghề, làm nghề còn hạn chế, chưa xác định được định hướng tương lai của bản thân Một số ít do hoàn cảnh gia đình hoặc do chọn sai ngành, chán nên nghỉ Nhiều em ý thức kém, không chấp hành các nội quy, quy định của nhà trường nên bị kỷ luật, lưu ban, buộc phải thôi học hoặc nợ quá nhiều môn học dẫn đến không thể tốt nghiệp đúng hạn Một số khác do hoàn cảnh khó khăn nên phải nghỉ học

đi làm sớm để phụ giúp gia đình Việc HSSV bỏ học gây ra lãng phí tiền của, thời gian, ảnh hưởng đến tổng thể các kế hoạch phát triển chung và bền vững của mỗi nhà trường Sau khi nghỉ học, nhiều em trong số đó vướng vào các tệ nạn xã hội hoặc không xin được việc làm do không đủ bằng cấp, trình độ Các cơ sở giáo dục nghề nghiệp, nhất là các trường trung cấp, đang đối mặt với nhiều khó khăn không chỉ trong việc tuyển sinh

mà còn trong việc giữ chân người học Khó khăn này phản ánh thách thức lớn trong việc thay đổi nhận thức và quan điểm về giáo dục nghề nghiệp trong xã hội hiện đại

1.2 Tổng quan tình hình nghiên cứu

Hiện nay, việc sử dụng khai phá dữ liệu trong lĩnh vực giáo dục đã thu hút sự chú

ý lớn từ các nhà nghiên cứu trên toàn thế giới Một ứng dụng quan trọng của trí tuệ nhân tạo là máy học, được chia thành nhiều dạng như học không giám sát, học có giám sát, học bán giám sát và học tăng cường Học có giám sát và học không giám sát là hai

Trang 16

5

phương pháp phổ biến hiện nay Trong học có giám sát, dữ liệu có nhãn được sử dụng

để phân loại, dự đoán hoặc gợi ý Trong khi đó, học không giám sát sử dụng dữ liệu không có nhãn để tìm hiểu mối quan hệ và cấu trúc dữ liệu Học bán giám sát và học tăng cường thường được áp dụng trong các bài toán phân loại và phát hiện gian lận Các thuật toán máy học thường được viết bằng Python, với sự hỗ trợ của các thư viện quan trọng như Pandas, Numpy, Matplotlib, Seaborn và Scikit-learn Hai ứng dụng phổ biến

là Google Colab và Kaggle đã giúp tạo ra các tập dữ liệu và tiến hành xử lý mạnh mẽ để phục vụ cho việc phân tích sâu hơn

Trong thời gian gần đây, đã có nhiều nghiên cứu về dự đoán kết quả học tập của HSSV sử dụng các phương pháp máy học

Nghiên cứu trong nước:

Năm 2016, Nguyễn Thái Nghe “Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập” [3] Tác giả giới thiệu một số nghiên cứu liên quan đến vấn đề hỗ trợ sinh viên lập kế hoạch học tập thông qua việc sử dụng các phương pháp dự đoán trong khai phá dữ liệu Trong đó, nhóm nghiên cứu thứ nhất liên quan đến việc sử dụng các giải thuật không cá nhân hóa như mạng Bayes và Cây quyết định Nhóm nghiên cứu thứ hai liên quan đến việc sử dụng giải thuật cá nhân hóa – lấy ý tưởng từ các kỹ thuật trong hệ thống gợi ý - như kỹ thuật phân rã ma trận thiên vị (Biased Matrix Factorization) nhằm dự đoán kết quả học tập cho từng cá nhân sinh viên, từ đó hỗ trợ lựa chọn môn học phù hợp với năng lực của từng cá nhân Kết quả

từ các nghiên cứu này đã cho thấy sử dụng phương pháp máy học trong dự đoán kết quả học tập của sinh viên là khả thi và có thể ứng dụng trong thực tế tại các trường đại học

Năm 2016, Đặng Văn Lực “Phân tích dữ liệu tạo cảnh báo học tập bằng mô hình hồi quy Logistic” [2] Nghiên cứu giới thiệu về mô hình hồi quy Logistic, phương pháp ước lượng tham số và kiểm định kết quả thống kê đối với mô hình hồi quy Logistic từ

đó đưa ra mô hình dự đoán tối ưu nhất dựa trên dữ liệu thu thập từ học sinh TCCN hệ THCS tại trường Trung cấp Kỹ thuật và Nghiệp vụ Nam Sài Gòn

Năm 2019, Nguyễn Thị Uyên, Nguyễn Minh Tâm “Dự đoán kết quả học tập của sinh viên bằng kỹ thuật khai phá dữ liệu” [6] Nghiên cứu đề xuất phương pháp cho phép

dự đoán được khả năng bị buộc ngừng học dựa vào phân tích dữ liệu từ điểm thi đầu vào, điểm thi các môn của ba học kỳ đầu và tình trạng hiện thời (tiếp tục học hoặc ngừng

Trang 17

ở các môn học Ngôn ngữ Lập trình C, Toán A2 (Giải tích I), Tư tưởng Hồ Chí Minh và

có điểm thấp khi thi đầu vào đại học thì có xu thế bị buộc ngừng học Ngoài ra yếu tố quê quán cũng ảnh hưởng cao đến tình trạng ngừng học của sinh viên Những sinh viên cùng quê thường có xu hướng đạt kết quả học tập tương tự nhau

Năm 2020, Nguyễn Mạnh Hùng và các cộng sự “Các yếu tố ảnh hưởng đến kết quả học tập của sinh viên hệ chính quy tại trường Đại học Kinh Tế, Đại Học Huế” [1] Nghiên cứu này vận dụng phương pháp phân tích hàm hồi quy tuyến tính đa biến để ước lượng mức độ và chiều hướng tác động của những yếu tố đến kết quả học tập (KQHT) của sinh viên Kết quả cho thấy KQHT của sinh viên chịu ảnh hưởng của những yếu tố như: điểm tuyển sinh đầu vào, giới tính, khoa đào tạo, khóa học và nơi thường trú của sinh viên Trong đó, những sinh viên có điểm tuyển sinh đầu vào càng cao thì có KQHT đại học càng cao và ngược lại; sinh viên nữ có thành tích học tập tốt hơn so với nam giới; những sinh viên thường trú tại thành phố Huế trong thời gian học đại học có KQHT thấp hơn so với những sinh viên thường trú ngoài thành phố Huế

Năm 2020, Võ Đức Quang và các cộng sự “Ứng dụng kỹ thuật học máy trên dữ liệu mất cân bằng hỗ trợ dự đoán sớm khả năng thôi học của học sinh trung học phổ thông” [4] Nghiên cứu đề xuất một mô hình học máy cho bài toán phân lớp trên tập dữ liệu mất cân bằng, trong đó sử dụng kết hợp kỹ thuật sinh mẫu tổng hợp SMOTE và giải thuật AdaBoost cho thuật toán Cây quyết định Các tác giả đã tiến hành thực nghiệm đánh giá so sánh hiệu quả phân lớp của mô hình đã đề xuất với các giải thuật Cây quyết định sử dụng entropy và chỉ số Gini trên bộ dữ liệu thực tế thu thập tại Trường trung học phổ thông (THPT) Đông Hiếu, Thái Hòa, Nghệ An từ năm 2014 đến năm 2019 Các kết quả thực nghiệm chỉ ra rằng khi kết hợp kỹ thuật sinh mẫu tổng hợp SMOTE với giải thuật AdaBoost với các giải thuật Cây quyết định cho chất lượng tốt hơn việc chỉ dùng các giải thuật Cây quyết định thuần túy khi ứng dụng trên bộ dữ liệu mất cân bằng

Trang 18

đã tốt nghiệp khoa Công nghệ thông tin nhằm phân tích, đánh giá mối quan hệ giữa kết quả học tập và cơ hội việc làm, từ đó hỗ trợ cho việc định hướng học tập và nghề nghiệp cho sinh viên trong tương lai

Nghiên cứu quốc tế:

Năm 2021, Anupam Khan và Soumya K Ghosh “Student performance analysis and prediction in classroom learning: A review of educational data mining studies” [7] Bài viết là một bản đánh giá hệ thống các nghiên cứu trong lĩnh vực Khai thác Dữ liệu Giáo dục (EDM), tập trung vào hiệu suất học tập của học sinh Phân tích 140 bài báo tiếng Anh từ năm 2000 đến 2018 thu thập được thông qua công cụ Elsevier và Google Scholar Xác định các yếu tố dự đoán, phương pháp sử dụng cho việc dự đoán và mục tiêu của những dự đoán này Bài đánh giá đã đạt được những hiểu biết quan trọng về việc dự đoán hiệu suất học sinh trong thời gian khóa học, nhưng dự đoán sớm vẫn còn

là thách thức Bài báo nhằm mục tiêu thúc đẩy dự đoán điểm và phát triển hệ thống giáo dục thông minh

Năm 2019, Chitra Jalota và Dr Rashmi Agrawal “Analysis of Educational Data Mining using classification” [10] Nghiên cứu về các kỹ thuật khai thác dữ liệu khác nhau để dự đoán hiệu suất học tập của sinh viên bằng cách sử dụng bộ dữ liệu của kalboard 360 và áp dụng nó trên weka để phân tích các kỹ thuật khai thác dữ liệu

Năm 2020, MohammadNoor Injadat và các cộng sự “Systematic Ensemble Model Selection Approach for Educational Data Mining” [9] Nghiên cứu này tập trung vào việc dự đoán hiệu suất học tập thông qua phân tích hai bộ dữ liệu ở hai giai đoạn khác nhau, sử dụng các kỹ thuật đồ họa, thống kê và định lượng Kết quả phân tích giúp lựa chọn và tinh chỉnh thuật toán phân loại Mô hình học kết hợp (Ensemble Learning) dựa trên chỉ số Gini và giá trị p được đề xuất để dự đoán học sinh cần hỗ trợ trong học tập

Năm 2023, E Mashagba, F Al-Saqqar và A Al-Shatnawi "Using Gradient Boosting Algorithms in Predicting Student Academic Performance" [11] Nghiên cứu

Trang 19

8

đề xuất một phương pháp mới là thuật toán Gradient Boosting để phân tích hiệu suất học tập của sinh viên Cụ thể, phương pháp này triển khai các thuật toán XGBoost, CatBoost và LightGBM Phương pháp bao gồm hai mô hình dự đoán: mô hình dự đoán kết quả học tập của sinh viên và mô hình đánh giá sinh viên Kết quả cho thấy thuật toán CatBoost đạt được kết quả dự đoán tốt nhất, với độ chính xác lên đến 92.16% cho mô hình dự đoán kết quả học tập của sinh viên và 86.89% cho mô hình đánh giá sinh viên LightGBM thì đạt kết quả tốt nhất về tốc độ

KẾT LUẬN CHƯƠNG 1

Kết thúc chương này, chúng ta đã có cái nhìn tổng quan về tình trạng thôi học tại các trường nghề và vai trò của khai phá dữ liệu trong việc giải quyết vấn đề này Các nghiên cứu liên quan đã cho thấy tiềm năng của việc sử dụng dữ liệu để dự báo và cải thiện hiệu quả giáo dục, mở ra hướng đi mới cho nghiên cứu và ứng dụng trong lĩnh vực

giáo dục nghề nghiệp

Trang 20

9

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

Chương này giới thiệu về các kỹ thuật và thuật toán cốt lõi trong khai phá dữ liệu giáo dục Bắt đầu với một cái nhìn tổng quan về khái niệm và ứng dụng của khai phá dữ liệu trong giáo dục, chương tiếp tục giới thiệu các phương pháp trong khai phá dữ liệu các thuật toán học máy

2.1 Khai phá dữ liệu trong giáo dục

Khai phá dữ liệu là lĩnh vực nghiên cứu để trích xuất thông tin từ một bộ dữ liệu

và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp Quá trình khai phá dữ liệu là quá trình khám phá kiến thức có trong cơ sở dữ liệu [7] Khai phá dữ liệu trong giáo dục (EDM) là quá trình sử dụng các phương pháp và kỹ thuật khai phá dữ liệu để khám phá thông tin hữu ích, mẫu mực, và tri thức từ dữ liệu liên quan đến lĩnh vực giáo dục Mục tiêu của khai phá dữ liệu trong giáo dục là tìm ra các mẫu, quy luật, và thông tin tiềm ẩn

từ các tập dữ liệu về học tập, hành vi của học sinh, hiệu suất học tập, và các yếu tố khác liên quan đến quá trình giảng dạy và học tập

Các kỹ thuật khai phá dữ liệu trong giáo dục thường sử dụng các phương pháp học máy, thống kê, và trí tuệ nhân tạo để phân tích dữ liệu và tạo ra các mô hình dự đoán hoặc mô hình tìm hiểu từ dữ liệu học tập Các kết quả của khai phá dữ liệu có thể giúp người quản lý giáo dục, giáo viên và học sinh có cái nhìn sâu sắc hơn về quá trình học tập, giúp cải thiện chất lượng giảng dạy và hỗ trợ định hướng học tập cho học sinh

Hình 2.1: Khai phá dữ liệu trong giáo dục

2.2 Các phương pháp trong khai phá dữ liệu

Phân lớp (Classification): xác định một hàm ánh xạ các mục dữ liệu vào một trong nhiều lớp đã được xác định trước Trong giáo dục, phân lớp thường được sử dụng

để xác định học sinh có khả năng cao hoặc thấp trong việc đạt được các kết quả học tập nhất định

Trang 21

10

Phân cụm (Clustering): là việc nhóm các đối tượng tương tự nhau dựa trên các đặc điểm của chúng mà không cần thông tin về nhãn lớp Phân cụm có thể được sử dụng

để phát hiện các nhóm học sinh có hành vi học tập tương tự

Hồi quy (Regression): được sử dụng để mô hình hóa và phân tích mối quan hệ giữa các biến số Trong hồi quy, chúng ta cố gắng xác định hàm ánh xạ từ một hoặc nhiều biến độc lập (predictors) đến một biến phụ thuộc (target) Trong giáo dục, hồi quy thường được sử dụng để dự đoán kết quả học tập dựa trên một loạt các biến đầu vào

Luật kết hợp (Association Rule Mining): tìm ra các mối quan hệ hay quy luật giữa các biến trong dữ liệu Phương pháp này giúp phát hiện các mối quan hệ và quy luật không rõ ràng giữa các yếu tố ảnh hưởng đến kết quả học tập

2.3 Các thuật toán học máy cổ điển

2.3.1 Hồi quy Logistic

Hồi quy Logistic là một phương pháp hồi quy được sử dụng cho các biến phụ thuộc nhị phân, nơi biến đầu ra là dạng phân loại với hai lớp (0 hoặc 1) Mô hình này ước lượng xác suất để một sự kiện cụ thể xảy ra dựa trên một hoặc nhiều biến độc lập

Hình 2.2: Hồi quy Logistic

Hồi quy Logistic sử dụng một hàm logistic để mô hình hóa xác suất p của một sự kiện, với công thức:

Trang 22

11

𝑋1, 𝑋2, , 𝑋𝑛 là các biến độc lập

𝑏0 là hệ số chặn (intercept)

𝑏1, 𝑏2, , 𝑏𝑛 là hệ số của mỗi biến độc lập 𝑋1, 𝑋2, , 𝑋𝑛

Ưu điểm và nhược điểm của hồi quy Logistic:

Giới hạn bởi mối quan hệ tuyến tính

Không giải quyết tốt với dữ liệu phức tạp

Không phù hợp với số lượng lớn các tính năng Khi có quá nhiều tính năng, mô hình có thể trở nên quá phức tạp và có nguy cơ overfitting

Nhạy cảm với dữ liệu mất cân đối

2.3.2 Support Vector Machine – SVM

SVM là một mô hình học máy có giám sát được sử dụng phổ biến trong các bài toán phân loại và hồi quy Trong bối cảnh phân loại, SVM phân loại dữ liệu bằng cách tìm ra siêu phẳng (hyperplane) tối ưu nhất trong không gian đa chiều (n-dimensional space) để phân tách các lớp dữ liệu Siêu phẳng này được chọn sao cho khoảng cách từ siêu phẳng đến điểm dữ liệu gần nhất từ mỗi lớp (các support vectors) là lớn nhất

Hình 2.3: Phân loại với SVM

Trang 23

w là vector trọng số của siêu phẳng

b là độ lệch (bias)

x𝑖 là điểm dữ liệu thứ i

𝑦𝑖 là nhãn của điểm dữ liệu x𝑖, thường được mã hóa là +1 hoặc -1

Trong trường hợp dữ liệu không tuyến tính, SVM sử dụng hàm nhân (kernel functions) để biến đổi dữ liệu vào không gian đặc trưng cao chiều, nơi việc phân tách lớp trở nên dễ dàng hơn Công thức sau đây tính toán quyết định cho một điểm dữ liệu mới x:

𝑓(x) = sign(∑𝑛𝑖=1𝛼𝑖𝑦𝑖𝐾(x𝑖, x) + 𝑏) (2.3)

Ở đây, K là hàm nhân, và 𝛼𝑖 là các hệ số Lagrange tìm được từ quá trình huấn luyện

Ưu điểm và nhược điểm của SVM:

Ưu điểm: SVM hiệu quả trong việc phân loại các tập dữ liệu phức tạp và có chiều cao, thường cho kết quả tốt trong thực tế, đặc biệt với dữ liệu có nhiều chiều Do việc tối ưu hóa margin, SVM có khả năng chống lại việc overfitting tốt hơn các thuật toán khác Có thể sử dụng nhiều loại hàm nhân khác nhau để xử lý các mối quan hệ dữ liệu phi tuyến

Nhược điểm: Việc sử dụng hiệu quả SVM đòi hỏi sự cân nhắc và chuyên môn kỹ thuật Việc lựa chọn hàm nhân, một quyết định quan trọng trong SVM, cần phải dựa trên hiểu biết về cấu trúc và tính chất của dữ liệu Các hàm nhân khác nhau có thể phản ánh các mối quan hệ tính năng một cách khác nhau và có ảnh hưởng lớn đến hiệu suất của mô hình SVM không cung cấp ước lượng xác suất tự nhiên, hiệu suất giảm khi xử

lý dữ liệu lớn, và mô hình có thể trở nên khó giải thích, đặc biệt khi sử dụng kernel phi tuyến

Trang 24

13

sự hiện diện của các tính năng khác, điều này thường không đúng trong thực tế, nhưng thuật toán này vẫn hoạt động tốt trong nhiều trường hợp

Hình 2.4: Phân loại với Naive Bayes

Định lý Bayes được biểu diễn bằng công thức sau:

𝑃(𝑌|𝑋) = 𝑃(𝑋∣𝑌)𝑃(𝑌)

Trong đó:

𝑃(𝑌|𝑋): xác suất xảy ra sự kiện Y khi sự kiện X xảy ra

𝑃(𝑋 ∣ 𝑌): xác suất xảy ra sự kiện X khi sự kiện Y xảy ra

𝑃(𝑌): xác suất của việc xuất hiện lớp Y trước khi quan sát dữ liệu

𝑃(𝑋): xác suất tổng thể của việc quan sát dữ liệu X mà không phụ thuộc vào lớp của dữ liệu

Trong phân loại Naive Bayes, chúng ta sử dụng công thức này để tính xác suất mỗi lớp cho một điểm dữ liệu cụ thể và dự đoán lớp có xác suất cao nhất Công thức cuối cùng cho việc dự đoán lớp 𝐶𝑘 ới điểm dữ liệu x là:

Trang 25

Cách hoạt động chính của Ensemble Learning là sử dụng nhiều mô hình độc lập

để tạo ra một dự đoán chung, thường dựa trên sự kết hợp hoặc biểu quyết của dự đoán

từ các mô hình con (weak learner) Sự đa dạng trong cách mà các mô hình con hoạt động

và sự khác biệt trong cách chúng học từ dữ liệu là yếu tố quan trọng để tăng hiệu suất của Ensemble Learning

Hình 2.5: Tổng quát về Ensemble Learning

Phương pháp tăng cường (Boosting):

Boosting là một kỹ thuật trong học máy thuộc lĩnh vực Ensemble Learning Boosting xây dựng các mô hình tuần tự, mỗi mô hình cố gắng cải thiện các dự đoán sai của mô hình trước đó bằng cách tập trung vào các mẫu bị dự đoán sai

Trang 26

15

Hình 2.6: Quá trình huấn luyện một mô hình boosting

Boosting tiến hành đánh trọng số cho các mô hình mới được thêm vào dựa trên các cách tối ưu khác nhau Tùy theo cách đánh trọng số và cách tổng hợp lại các model,

Mỗi một mô hình con được huấn luyện từ bộ dữ liệu được đánh trọng số theo tính toán từ mô hình tiền nhiệm Dữ liệu có trọng số sau đó được đưa vào huấn luyện mô

Trang 27

16

hình tiếp theo Đồng thời ta cũng tính ra một trọng số quyết định 𝛼𝑝 thể hiện vai trò của mỗi mô hình ở từng bước huấn luyện Cứ tiếp tục như vậy cho tới khi số lượng mô hình đạt ngưỡng hoặc tập huấn luyện hoàn toàn được phân loại đúng thì dừng quá trình

Kết quả dự báo từ mô hình cuối cùng là một kết hợp từ những mô hình với trọng

số 𝛼𝑖:

𝑓̂(𝑥) = 𝑠𝑖𝑔𝑛(∑𝑝𝑖=1𝛼𝑖𝑓̂𝑖(𝑥)) (2.7) Trong đó: 𝑠𝑖𝑔𝑛(𝑥) = { 1 𝑛ế𝑢 𝑥 > 0

−1 𝑛ế𝑢 𝑥 < 0Các hệ số 𝛼𝑖 được tính từ phương pháp tăng cường, chúng được sử dụng để đánh trọng số mức độ đóng góp từ mỗi một mô hình con 𝑓̂𝑖 trong chuỗi nhằm phân bổ vai trò quyết định trên từng mô hình khác nhau tùy thuộc vào mức độ chính xác của chúng

Khi huấn luyện một mô hình con 𝑓̂𝑖 thì chúng ta áp dụng một trọng số 𝑤𝑗 lên từng quan sát (𝑥𝑗, 𝑦𝑗) sao cho đối với những quan sát bị dự báo sai thì trọng số của nó

sẽ lớn hơn Như vậy ở mô hình tiếp theo sẽ ưu tiên dự báo đúng những quan sát này hơn

so với những quan sát đã được dự báo đúng

Ở thời điểm khởi đầu thì chúng ta gán 𝑤𝑗 = 1

𝑁, ∀𝑗 = 1, 𝑁̅̅̅̅̅

Các bước của thuật toán AdaBoosting:

Hình 2.7: Các bước thực hiện thuật toán Adaboost

− Khởi tạo trọng số quan sát 𝑤𝑖 = 1

Trang 28

𝑤𝑖𝑒𝛼 𝑏 𝑛ế𝑢 𝑦𝑖 ≠ 𝑓̂𝑏(𝑥𝑖)Sau khi tính xong các trọng số 𝑤𝑖 thì giá trị của chúng sẽ được chuẩn hoá bằng cách chia cho ∑𝑁𝑖=1𝑤𝑖

− Có thể sử dụng nhiều bộ phân loại cơ sở với AdaBoost

− Adaboost không dễ bị quá khít với dữ liệu

Nhược điểm

− Adaboost nhạy cảm với dữ liệu nhiễu

− Bị ảnh hưởng bởi các yếu tố ngoại lai vì nó cố gắng khớp từng điểm một cách hoàn hảo

− Chạy chậm hơn XGBoost

2.4.2 Gradient Boosting

Tương tự như AdaBoosting, Gradient Boosting cũng huấn luyện liên tiếp các mô hình yếu Tuy nhiên, Gradient Boosting không sử dụng sai số của mô hình để tính toán trọng số cho dữ liệu huấn luyện mà sử dụng phần dư Xuất phát từ mô hình hiện tại, quá

Trang 29

18

trình xây dựng mô hình tiếp theo tập trung vào việc khắc phục sự chênh lệch còn tồn đọng giữa dự đoán của mô hình hiện tại và giá trị thực tế Điều đặc biệt trong quá trình này là chúng ta không cố gắng dự đoán trực tiếp giá trị biến mục tiêu y, mà thay vào đó, chúng ta tập trung vào việc dự đoán và điều chỉnh sai số của mô hình trước đó Sau đó

sẽ tích hợp mô hình huấn luyện mới vào hàm dự đoán ban đầu để dần dần cập nhật phần

dư Mỗi cây quyết định trong chuỗi mô hình sẽ được xây dựng với kích thước nhỏ và có chỉ một vài nút quyết định, được xác định bởi tham số độ sâu d

Hình 2.8: Phương pháp huấn luyện mô hình theo Gradient Boosting

Các bước của thuật toán Gradient Boosting:

Tree 1: Cây đầu tiên được huấn luyện trên dữ liệu gốc (X, y), nơi y là nhãn thực

tế

Residuals r1: Dự đoán của cây đầu tiên 𝑦̂ được sử dụng để tính toán sai số 𝑟1 1 =

𝑦 − 𝑦̂, được gọi là residuals hoặc phần dư 1

Tree 2: Cây thứ hai được huấn luyện không phải để dự đoán y, mà là để dự đoán residuals r1 từ cây đầu tiên

Residuals r2: Tương tự như trên, cây thứ hai tạo ra một dự đoán 𝑟̂ và residuals 1mới được tính toán 𝑟2 = 𝑟1− 𝑟̂ 1

Quá trình này tiếp tục với Tree 3, Tree 4, , Tree p cho đến khi đạt được số lượng cây cụ thể hoặc khi lỗi không còn giảm thêm nữa

Tree p: Cây cuối cùng trong chuỗi được huấn luyện để dự đoán residuals từ cây trước nó

Trang 30

19

Kỹ thuật này giúp cải thiện hiệu suất dự đoán của mô hình bằng cách giảm bias

và variance qua từng bước lặp

Ưu điểm và nhược điểm của Gradient Boosting

− Khả năng độc lập với mô hình cơ bản: Gradient Boosting không yêu cầu mô hình

cơ bản hoạt động tốt Nó có thể xây dựng một chuỗi các mô hình yếu để cải thiện hiệu suất

Nhược điểm:

− Dễ bị overfitting: Gradient Boosting có khả năng dễ bị overfitting trên các tập dữ liệu nhỏ hoặc khi số lượng cây quyết định trong chuỗi lớn Điều này có thể xảy ra nếu không kiểm soát được các tham số như độ sâu cây, số lượng cây, và tỷ lệ học

− Thời gian huấn luyện lâu: Do việc xây dựng từng cây quyết định trong chuỗi phụ thuộc vào cây trước đó, Gradient Boosting thường tốn thời gian huấn luyện hơn so với một số thuật toán khác như Random Forest

− Nhạy cảm với nhiễu: Gradient Boosting có thể nhạy cảm với các nhiễu lớn hoặc giá trị bất thường trong dữ liệu Các nhiễu này có thể ảnh hưởng đến quá trình học và làm giảm hiệu suất của mô hình.Khó tinh chỉnh tham số: Việc tinh chỉnh tham số trong Gradient Boosting có thể phức tạp và đòi hỏi kiến thức về thuật toán Nếu không tinh chỉnh tham số đúng cách, mô hình có thể không đạt được hiệu suất tốt

XGBOOST

XGBoost là một phiên bản cải tiến và tối ưu hóa của thuật toán Gradient Boosting Thay vì chỉ thực hiện các mô hình tuần tự, XGBoost hỗ trợ việc huấn luyện song song

và phân tán, cho phép tận dụng tối đa tài nguyên tính toán và giảm thời gian huấn luyện

XGBoost có tích hợp chính quy hóa (regularization) vào quá trình học, bao gồm

cả chính quy L1 (Lasso) và L2 (Ridge) Điều này giúp điều chỉnh trọng số và ngăn chặn

Trang 31

lý giá trị thiếu sao cho tối ưu hoá độ tinh khiết của các nút cây Khi mô hình xây dựng các nhánh quyết định, nó sẽ cân nhắc xử lý các điểm dữ liệu thiếu trong từng nhánh riêng biệt Việc này giúp mô hình xác định xem có nên chia nhánh dựa trên giá trị thiếu hay không XGBoost cũng thực hiện việc xử lý giá trị thiếu trong quá trình tối ưu hóa các tham số của cây quyết định Việc này giúp tăng cường khả năng mô hình học được

từ dữ liệu có giá trị thiếu

XGBoost sử dụng thuật toán chặt tỉa (Tree Pruning) cây quyết định để loại bỏ các nhánh không cần thiết Việc chặt tỉa được thực hiện bằng cách tính toán một hàm mất mát (loss function) mà đo lường sự cải thiện khi loại bỏ một nhánh Thuật toán sẽ xem xét tất cả các nhánh có thể được loại bỏ và chọn nhánh nào có đóng góp ít nhất vào hiệu suất của mô hình để loại bỏ XGBoost hỗ trợ kiểm tra chéo (cross-validation) để đánh giá hiệu suất của mô hình trên dữ liệu kiểm tra

2.5 Kỹ thuật lấy mẫu OverSampling SMOTE

Mất cân bằng dữ liệu là một trong những hiện tượng phổ biến của bài toán phân loại nhị phân như phát hiện thư rác (spam email), phát hiện gian lận, dự báo nợ xấu, hoặc chẩn đoán bệnh Khi tỷ lệ số lượng mẫu giữa hai lớp gần bằng nhau (ví dụ 50:50),

ta coi đó là trạng thái cân bằng Hầu hết các tập dữ liệu thực tế thường không thể đạt được trạng thái cân bằng và luôn tồn tại sự khác biệt về tỷ lệ giữa hai lớp Trong trường hợp dữ liệu mất cân bằng nhẹ, sự khác biệt này thường không ảnh hưởng nhiều đến khả năng dự đoán của mô hình Tuy nhiên, khi hiện tượng mất cân bằng nghiêm trọng xảy

ra, ví dụ với tỷ lệ 90:10, nó có thể dẫn đến mô hình dự đoán sai lầm nghiêm trọng Bởi

đa phần kết quả dự báo ra thường thiên về một nhóm là nhóm đa số và rất kém trên nhóm thiểu số Giả sử bộ dữ liệu có 100 mẫu với 90 mẫu lớp 1 và 10 mẫu lớp 0 Nếu

mô hình dự đoán đúng 88 mẫu nhãn 1 và 02 mẫu nhãn 0, khi đó tỷ lệ phân loại chính xác đến 90% Tuy nhiên mô hình không có nhiều ý nghĩa vì chỉ dự đoán đúng 02 trong

10 mẫu (20%) của lớp quan trọng là lớp 0 Để giải quyết bài toán phân lớp dữ liệu mất

Trang 32

21

cân bằng, có hai hướng tiếp cận chính, là dựa trên mức độ dữ liệu và dựa trên mức độ thuật toán Sinh thêm phần tử lớp thiểu số (Oversampling) và giảm bớt phần tử lớp đa

số (Undersampling) là những phương pháp thường được áp dụng và được chứng minh

là có hiệu quả Trong luận văn này, tôi sử dụng kỹ thuật OverSampling phổ biến SMOTE (Synthetic Minority Over-sampling)

SMOTE giải quyết vấn đề mất cân bằng dữ liệu bằng cách tạo ra các mẫu dữ liệu tổng hợp mới cho lớp thiểu số Phương pháp này chọn ngẫu nhiên một mẫu từ lớp thiểu

số, tìm k-nearest neighbors (k láng giềng) của mẫu đó, thường là từ cùng một lớp, và sau đó tạo ra một mẫu dữ liệu mới nằm trên đường thẳng nối giữa mẫu đã chọn và một trong các neighbors của nó Quá trình này lặp lại cho đến khi số lượng mẫu trong lớp thiểu số được tăng lên, giúp cân bằng số lượng mẫu giữa các lớp trong bộ dữ liệu

Hình 2.9: Minh họa sinh mẫu mới bằng kỹ thuật SMOTE

Hình 2.10: Mẫu dữ liệu được sinh bằng kỹ thuật SMOTE

Trang 33

22

2.6 Phương pháp đánh giá và đo lường hiệu suất mô hình

Ma trận nhầm lẫn (Confusion matric): là một kỹ thuật đo hiệu suất các mô hình

True Positive (TP): Số học sinh được dự đoán tốt nghiệp thật

True Negative (TN): Số học sinh được dự đoán không có khả năng tốt nghiệp thật

False Positive (FP): Số học sinh được dự đoán tốt nghiệp nhưng thực tế không có khả năng tốt nghiệp

False Negative (FN): Số học sinh được dự đoán không có khả năng tốt nghiệp nhưng thực tế là tốt nghiệp

Độ chính xác của mô hình được tính theo các phương pháp sau:

Accuracy (độ chính xác): đo lường tỷ lệ dự đoán chính xác trên tổng số mẫu Phương

pháp này không phù hợp cho các bài toán mất cân bằng dữ liệu nếu lớp thiểu số quá nhỏ

𝐴𝑐𝑐 = 𝑇𝑃+𝑇𝑁

Recall (độ nhạy): đo lường khả năng của mô hình trong việc phát hiện và dự đoán

các trường hợp thực sự thuộc lớp tích cực (positive class) một cách chính xác Recall là

Ngày đăng: 15/06/2024, 16:48

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[12] Đức Hạnh, Hồng Việt VTV9 (2019). Truy cập ngày 11/09/2023 từ https://vtv.vn/vtv9/30-50-hoc-sinh-bo-hoc-nghe-giua-chung-dau-la-nguyen-nhan-20191225200039687.htm Link
[1] Nguyễn Mạnh Hùng, Hoàng Thị Kim Thoa, Nguyễn Thanh Thiện, Phan Thị Bích Hạnh (2020). Các yếu tố ảnh hưởng đến kết quả học tập của sinh viên hệ chính quy tại trường Đại học Kinh Tế, Đại Học Huế. Tạp chí Khoa học Đại học Huế:Khoa học Xã hội và Nhân văn. ISSN 2588-1213. Tập 129, Số 6C, 2020, Tr. 137–150; DOI: 10.26459/hueuni-jssh.v129i6C.5678 Khác
[2] Đặng Văn Lực (2016). Phân tích dữ liệu tạo cảnh báo học tập bằng mô hình hồi quy logistic. Luận văn thạc sĩ, trường Đại Học Công Nghệ TP. HCM, 108tr Khác
[3] Nguyễn Thái Nghe (2016). Ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ sinh viên lập kế hoạch học tập. Công nghệ thông tin trong hỗ trợ ra quyết định về Giáo dục, Nông nghiệp, Thuỷ sản và Môi trường vùng Đồng bằng sông Cửu Long (pp.18-34) Chapter: 2, Publisher: Đại học Cần Thơ Khác
[4] Võ Đức Quang và các cộng sự (2020). Ứng dụng kỹ thuật học máy trên dữ liệu mất cân bằng hỗ trợ dự đoán sớm khả năng thôi học của học sinh trung học phổ thông.Tạp chí khoa học, Tập 49 - Số 2A/2020, tr. 47-56 - Trường Đại học Vinh Khác
[5] Lê Quốc Tiến, Đặng Hoàng Anh (2022). Khai phá dữ liệu: phân tích xếp loại tốt nghiệp và cơ hội việc làm của sinh viên sử dụng kỹ thuật phân lớp. Tạp Chí Khoa học Công nghệ Hàng hải, 59(59), 125–129 Khác
[6] Nguyễn Thị Uyên, Nguyễn Minh Tâm (2019). Dự đoán kết quả học tập của sinh viên bằng kỹ thuật khai phá dữ liệu. Tạp chí khoa học Trường Đại học Vinh. Tập 48 - Số 3A/2019, tr. 68-73 Khác
[7] Anupam Khan và Soumya K. Ghosh (2021). Student performance analysis and prediction in classroom learning: A review of educational data mining studies Khác
[9] Injadat M, Moubayed A, Nassif, A. B., &amp; Shami, A. (2020). Systematic ensemble model selection approach for educational data mining. Knowledge-Based Systems, 200, 105992 Khác
[10] Jalota C, &amp; Agrawal R. (2019, February). Analysis of educational data mining using classification. In 2019 International Conference on Machine Learning, Big Data, Cloud and Parallel Computing (COMITCon) (pp. 243-247). IEEE Khác
[11] E. Mashagba, F. Al-Saqqar and A. Al-Shatnawi (2023). Using Gradient Boosting Algorithms in Predicting Student Academic Performance. International Conference on Business Analytics for Technology and Security (ICBATS),Dubai, United Arab Emirates, pp. 1-7, doi Khác

HÌNH ẢNH LIÊN QUAN

Hình 2.1: Khai phá dữ liệu trong giáo dục - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 2.1 Khai phá dữ liệu trong giáo dục (Trang 20)
Hình 2.2: Hồi quy Logistic - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 2.2 Hồi quy Logistic (Trang 21)
Hình 2.3: Phân loại với SVM - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 2.3 Phân loại với SVM (Trang 22)
Hình 2.4: Phân loại với Naive Bayes - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 2.4 Phân loại với Naive Bayes (Trang 24)
Hình 2.5: Tổng quát về Ensemble Learning - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 2.5 Tổng quát về Ensemble Learning (Trang 25)
Hình 2.6: Quá trình huấn luyện một mô hình boosting - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 2.6 Quá trình huấn luyện một mô hình boosting (Trang 26)
Hình 2.7: Các bước thực hiện thuật toán Adaboost - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 2.7 Các bước thực hiện thuật toán Adaboost (Trang 27)
Hình 2.8: Phương pháp huấn luyện mô hình theo Gradient Boosting - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 2.8 Phương pháp huấn luyện mô hình theo Gradient Boosting (Trang 29)
Hình 2.10: Mẫu dữ liệu được sinh bằng kỹ thuật SMOTE - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 2.10 Mẫu dữ liệu được sinh bằng kỹ thuật SMOTE (Trang 32)
Hình 2.9: Minh họa sinh mẫu mới bằng kỹ thuật SMOTE - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 2.9 Minh họa sinh mẫu mới bằng kỹ thuật SMOTE (Trang 32)
Hình 2.11: Ma trận nhầm lẫn - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 2.11 Ma trận nhầm lẫn (Trang 33)
Bảng 3.1: Thông tin môn học trong học kì 1 - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Bảng 3.1 Thông tin môn học trong học kì 1 (Trang 37)
Bảng 3.2: Thông tin môn học trong học kì 2 - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Bảng 3.2 Thông tin môn học trong học kì 2 (Trang 38)
Bảng 3.3: Thông tin các thuộc tính - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Bảng 3.3 Thông tin các thuộc tính (Trang 40)
Hình 3.1: Biến mục tiêu Trang_thai - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 3.1 Biến mục tiêu Trang_thai (Trang 41)
Hình 3.2: Biểu đồ phân phối dữ liệu - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 3.2 Biểu đồ phân phối dữ liệu (Trang 42)
Bảng 3.4: Kết quả phân tích các ngoại lệ - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Bảng 3.4 Kết quả phân tích các ngoại lệ (Trang 43)
Hình 3.3: Ma trận tương quan giữa các biến - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 3.3 Ma trận tương quan giữa các biến (Trang 44)
Hình 3.4: Ma trận tương quan giữa các biến với ngưỡng 0.7 - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 3.4 Ma trận tương quan giữa các biến với ngưỡng 0.7 (Trang 45)
Hình 3.5: Ma trận tương quan giữa các biến so với biến mục tiêu Trang_thai - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 3.5 Ma trận tương quan giữa các biến so với biến mục tiêu Trang_thai (Trang 45)
Hình 3.6: Biểu đồ tương quan giữa biến N1, N2 với biến Trang_thai - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 3.6 Biểu đồ tương quan giữa biến N1, N2 với biến Trang_thai (Trang 46)
Bảng 3.5: Mối quan hệ giữa các biến Tuoi, GT, Noi-o và biến mục tiêu Trang_thai - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Bảng 3.5 Mối quan hệ giữa các biến Tuoi, GT, Noi-o và biến mục tiêu Trang_thai (Trang 47)
Hình 3.7: Biểu đồ Scree - khai phá dữ liệu giáo dục để dự toán những học sinh không có khả năng tốt nghiệp áp dụng tại môi trường cao đẳng ở bình dương
Hình 3.7 Biểu đồ Scree (Trang 48)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w