Bài viết này sử dụng một số kỹ thuật khai phá dữ liệu để dự đoán kết quả kỳ thi của học sinh vào hai lớp là “qua môn” hay “trượt môn”, từ đó xem xét mối quan hệ giữa một số yếu tố đầu vào chính ảnh hưởng đến thành tích học tập của học sinh. Câu hỏi nghiên cứu đặt ra là: Những nhân tố nào tác động mạnh đến thành tích học tập của học sinh?
Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 DỰ ĐỐN KẾT QUẢ THI HẾT MƠN CỦA HỌC SINH SỬ DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU Vũ Thị Hạnh Trường Đại học Thuỷ lợi, email: hanhvt@tlu.edu.vn GIỚI THIỆU CHUNG Nguồn liệu thu khổng lồ chứa đựng kho tàng tri thức cần khám phá Lưu ý đến gia tăng tính khả dụng liệu học tập gán nhãn, khai thác liệu giám sát đạt giá trị định việc hiểu rõ tối ưu hoá trình học tập mơi trường học tập mà diễn (Huang cộng sự, 2021) Dự đốn kết thi hết mơn học coi quan trọng lợi ích việc xác định khả cá nhân nhóm học sinh có nguy cao không đạt kỳ thi cuối kỳ giúp sinh viên nhận thức điều chỉnh hành vi, thói quen, kế hoạch thân để ngăn việc dự đốn xảy (Nikola cộng sự, 2020) Đồng thời, cung cấp thông tin liên quan cho nhà giáo dục để lên kế hoạch can thiệp để hỗ trợ cá nhân nhóm học sinh kịp thời, xác định khố học chương trình giảng dạy cần cải tiến, đặc biệt bối cảnh học online kéo dài Bài viết sử dụng số kỹ thuật khai phá liệu để dự đoán kết kỳ thi học sinh vào hai lớp “qua mơn” hay “trượt mơn”, từ xem xét mối quan hệ số yếu tố đầu vào ảnh hưởng đến thành tích học tập học sinh Câu hỏi nghiên cứu đặt là: Những nhân tố tác động mạnh đến thành tích học tập học sinh? PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Tiền xử lý liệu Trước lựa chọn phương pháp tiếp cận dự đoán kết kỳ thi, trước tiên phải xác định liệu đầu vào tối ưu từ liệu thô Bộ liệu kết học tập tuyển chọn từ hai trường trung học sở Bồ Đào Nha năm học Tổng số 32 thuộc tính thu thập học sinh bao gồm điểm thành phần, thông tin nhân học, xã hội, thông tin liên quan đến trường học (như sex, famsize, traveltime, studytime, failures, activities, internet, freetime, health, ) Mỗi thông tin dán nhãn thành hai lớp “qua môn” “trượt mơn” Kiểu liệu thuộc tính kiểu số, kiểu nhị phân kiểu định tính Những thuộc tính có kiểu định tính ánh xạ sang giá trị số, thuộc tính có giá trị nhị phân ánh xạ sang Những thuộc tính kiểu số giá trị khơng thay đổi Việc chuẩn hoá giá trị cho liệu giúp cải thiện tốc độ giai đoạn học tập Bộ liệu kết học tập học sinh tách thành hai phần: 70% liệu sử dụng tập huấn luyện, 30% liệu sử dụng tập kiểm thử Tập huấn luyện sử dụng để điều chỉnh huấn luyện mơ hình dự đốn, phân loại giá trị biết tập huấn luyện Tập kiểm thử sử dụng để kiểm tra mơ hình đào tạo 2.2 Phương pháp nghiên cứu Bài viết sử dụng ba kỹ thuật khai phá liệu Decision Tree (DT), Support Vector Machine (SVM) K-Nearest Neighbours (KNN) để dự đốn kết thi hết mơn học sinh vào hai lớp dự đốn qua mơn hay trượt môn (P,F) 95 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 2.3 Decision Tree Cây định cách tiếp cận mơ hình sử dụng biểu đồ mơ hình định xảy hệ tương ứng chúng kết kiện ngẫu nhiên Nó cấu trúc luồng nút bên đại diện cho phép thử thuộc tính, nhánh đại diện cho kết thử nghiệm đại diện cho nhãn lớp Quyết định đưa sau đếm tất thuộc tính Cây đồ thị trực quan hố dạng biểu đồ giúp người dùng dễ dàng liên kết giả thuyết đặt kỳ thi cuối kỳ Đồng thời, thuộc tính liên quan đến gia đình nghề nghiệp mẹ, mối quan hệ gia đình đóng vai trị quan trọng trọng đến kết học tập học sinh Một số thuộc tính giới tính, địa chỉ, quy mơ gia đình số thuộc tính khác dường khơng ảnh hưởng đến thành tích học sinh Bảng liệt kê số thuộc tính đóng vai trị quan trọng ảnh hưởng đến kết cuối kỳ học sinh 2.4 Support Vector Machine (SVM) Mơ hình SVM biểu diễn vectơ đặc trưng dạng điểm không gian đa chiều, ánh xạ cho vectơ thuộc loại khác phân chia siêu phẳng SVM phân loại phi tuyến tính cách hiệu cách sử dụng phương pháp hạt nhân (kernal method), ánh xạ ngầm vectơ đặc trưng đầu vào vào một không gian chiều cao nơi mà chúng trở nên phân tách 2.5 K-Nearest Neighbours (KNN) KNN, thuật toán k-láng giềng gần thuật tốn học máy đơn giản, có giám sát KNN hoạt động cách tìm khoảng cách liệu chưa gán nhãn với tất liệu dán nhãn Nhãn liệu hay dự đoán kết kỳ thi học sinh suy trực tiếp từ K điểm liệu gần tập liệu huấn luyện Nhãn liệu cần dự đoán định số lượng phiếu bầu lớn điểm gần Bảng Các thuộc tính có ảnh hưởng cao đến kết học tập học sinh TT Thuộc tính Điểm số đợt (G1) [0 -20] Điểm số đợt (G2) [0 -20] Thời gian học hàng tuần (Studytime) (1) < 2h, (2) 2-5h, (3) 5-10h, (4) >10h Số lần trượt môn trước (Failures) [1-3] (4) > =4 Tình trạng sức khoẻ Rất xấu (1), xấu (2), (Health) bình thường (3), tốt (4), tốt (5) Số buổi nghỉ học (Abscences) Thời gian di chuyển đến trường (Traveltime) Bài báo sử dụng thư viện scikitlearning matplotlib Python để thực nghiệm ba kỹ thuật khai phá sử dụng Kết phân tích trọng số thuộc tính thu từ định cho thấy điểm số đợt 1, đợt số lần trượt mơn trước có tác động đáng kể đến điểm 96 [0-93] [1-4] tương (1h) ứng Nghề nghiệp mẹ Giáo viên (1), công (Mjob) việc liên quan đến y tế (2), hành (3), nội trợ (4), khác (5) Mối quan hệ trọng gia đình (Famrel) KẾT QUẢ NGHIÊN CỨU Phạm vi giá trị thuộc tính Rất xấu (1), xấu (2), bình thường (3), tốt (4), tốt (5) 10 Ra với bạn bè [1-5] tương ứng từ (Goout) thấp - cao 11 Thời gian rảnh sau học (Freetime) Rất (1), (2), bình thường (3), nhiều (4), nhiều (5) Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 Decision Tree, Support Vector Machine K-Nearest Neighbors đánh giá so sánh bối cảnh toán dự đoán kết thi cuối kỳ học sinh Để đảm bảo tính ổn định thước đo đánh giá định lượng, kết độ xác sau áp dụng ba kỹ thuật DT, SVM, KNN dự đoán kết thi hết môn thống kê Bảng kết trung bình từ 10 thử nghiệm độc lập thực cho kỹ thuật phân tích Bảng So sánh độ xác kỹ thuật DT, SVM KNN dự đoán kết kỳ thi cuối Thuật toán Decision Tree Support Vector Machine K-Nearest Neighbors Average Accuracy 0.8971 0.8416 0.8413 Standard Deviation 0.0717 0.0464 0.0475 Accuracy Score 92.82 % đối cao, cao 92.82% với kỹ thuật định Bên cạnh đó, nghiên cứu tìm nhân tố điểm thi thành phần môn học (G1, G2), thời gian học hàng tuần, số lần trượt môn, số buổi nghỉ học, nghề nghiệp cha mẹ mối quan hệ gia đình đóng vai trị quan trọng tới kết thi cuối kỳ học sinh Từ dự đốn kết thi hết mơn học sinh mối tương quan thuộc tính đầu vào đến kết thi, học sinh vào dự đoán kết thi cuối kỳ để tự điều chỉnh thân tăng thời gian học hàng tuần, giảm số buổi nghỉ học để ngăn việc rớt mơn xảy Đồng thời, nhà trường dựa dự đốn kết thi cuối kỳ nhân hay nhóm sinh viên để đưa hỗ trợ bổ sung kiến thức kịp thời, điều chỉnh nội dung học cho phù hợp với bối cảnh khác TÀI LIỆU THAM KHẢO 88.72% 87.18% Trong đó: Average Accuracy độ xác trung bình, Standard Deviation độ lệch chuẩn, Accuracy Score điểm số phân loại xác Kết thu cho tốn dự đoán kết thi cuối kỳ học sinh sử dụng số kỹ thuật khai phá liệu thống kê Bảng Dựa kết này, nhận thấy DT, SVM KNN đưa dự đoán với độ xác cao Trong đó, định cho thấy kết tốt nhất, SVM KNN cho kết tương đương độ xác thấp so với DT [1] Huang, Chenxi, et al (2021) "A feature weighted support vector machine and artificial neural network algorithm for academic course performance prediction." Neural Computing and Applications: 1-13 [2] Tomasevic, Nikola, Nikola Gvozdenovic, and Sanja Vranes (2020) "An overview and comparison of supervised data mining techniques for student exam performance prediction." Computers & education 143: 103676 KẾT LUẬN Bài viết dự đoán kết thi hết môn học sinh dựa ba kỹ thuật Decision Tree, Support Vector Machine K-Nearest Neighbours Kết dự đoán áp dụng ba kỹ thuật khai phá liệu cho kết dự đoán với độ xác tương 97 ... 103676 KẾT LUẬN Bài viết dự đốn kết thi hết mơn học sinh dựa ba kỹ thuật Decision Tree, Support Vector Machine K-Nearest Neighbours Kết dự đoán áp dụng ba kỹ thuật khai phá liệu cho kết dự đốn... trọng tới kết thi cuối kỳ học sinh Từ dự đốn kết thi hết mơn học sinh mối tương quan thuộc tính đầu vào đến kết thi, học sinh vào dự đốn kết thi cuối kỳ để tự điều chỉnh thân tăng thời gian học hàng... thi cuối kỳ học sinh sử dụng số kỹ thuật khai phá liệu thống kê Bảng Dựa kết này, nhận thấy DT, SVM KNN đưa dự đốn với độ xác cao Trong đó, định cho thấy kết tốt nhất, SVM KNN cho kết tương đương