Bài viết đánh giá học lực là vấn đề quan trọng trong việc đánh giá học sinh phổ thông. Việc đánh giá dựa trên điểm các môn học của học sinh trong suốt quá trình học. Từ lâu, các thuật toán học máy nói chung, thuật toán phân lớp Bayes nói riêng đã được ứng dụng để giải quyết các bài toán phân lớp, dự báo một cách hiệu quả. Bài báo này ứng dụng thuật toán Bayes trong việc dự báo học lực của học sinh để hỗ trợ cho việc quản lý cũng như đánh giá học sinh trong trường phổ thông.
Đào Đức Anh, Nguyễn Tu Trung, Vũ Văn Thỏa ỨNG DỤNG THUẬT TOÁN BAYES TRONG VẤN ĐỀ DỰ BÁO HỌC LỰC CỦA HỌC SINH PHỔ THÔNG Đào Đức Anh1, Nguyễn Tu Trung1, Vũ Văn Thỏa2 Đại học Thủy Lợi Học viện Cơng nghệ Bưu Viễn thơng Tóm tắt: Đánh giá học lực vấn đề quan trọng việc đánh giá học sinh phổ thông Việc đánh giá dựa điểm môn học học sinh suốt q trình học Từ lâu, thuật tốn học máy nói chung, thuật tốn phân lớp Bayes nói riêng ứng dụng để giải toán phân lớp, dự báo cách hiệu Bài báo ứng dụng thuật toán Bayes việc dự báo học lực học sinh để hỗ trợ cho việc quản lý đánh giá học sinh trường phổ thơng.1 Từ khóa: Học lực, điểm trung bình, Bayes, học máy thống kê, dự báo I MỞ ĐẦU Dự báo khoa học nghệ thuật tiên đoán việc xảy tương lai, sở phân tích khoa học liệu thu thập Khi tiến hành dự báo cần vào việc thu thập, xử lý số liệu khứ để xác định xu hướng vận động tượng tương lai nhờ vào số mơ hình tốn học (định lượng) Tuy nhiên, dự báo dự đoán chủ quan trực giác tương lai (định tính) để dự báo định tính xác hơn, người ta cố loại trừ tính chủ quan người dự báo Có nhiều phương pháp dự báo khác Hiện nay, việc sử dụng phương pháp học máy ứng dụng cho toán dự báo trở nên phổ biến Trong đó, dự báo sử dụng phân lớp Bayes ứng dụng rộng rãi… Ví dụ, dự báo giá loại mặt hàng, dự báo tỉ lệ tăng dân số… biết thông tin khữ điều kiện cho trước… Phân lớp Bayes sử dụng cách phân lớp chủ đề văn [6] Một ứng dụng phổ biến phân lớp Bayes phân loại thư rác Trong [1], Awad trình bày đánh giá, so sánh số phương pháp học máy (Bayesian classification, k-NN, ANNs, SVMs ) cho vấn đề lọc thư rác Trong [2], Jialin cộng thảo luận, đánh giá phương pháp lọc SMS rác sử dụng SVM MTM (message topic model) Trong [4], Phan Hữu Tiếp cộng trình bày quy trình lọc thưc rác tiếng Việt dựa thuật tốn Nạve Bayes việc xử lý tách câu tiếng Việt Trong [5], Tác giả liên hệ: Nguyễn Tu Trung Email: Trungnt.sremis@gmail.com Đến tòa soạn: 2/2020, chỉnh sửa 4/2020, chấp nhận đăng 4/2020 SỐ 01 (CS.01) 2020 Tianda cộng trình bày so sánh phân loại thư rác sử dụng kĩ thuật Naïve Bayes phân loại thư rác sử dụng phân loại thư rác kĩ thuật luật kết hợp Trong [3], tác giả đánh giá số cách thức tính xác suất SPAM token phân loại thư rác Hạnh kiểm học lực hai yếu tố quan trọng học sinh tham gia học tập trường Trong đó, kết xếp loại học lực học sinh sử dụng để đánh giá xét cho học sinh lên lớp để đánh giá xếp loại khen thưởng [7] Căn vào điểm trung bình mơn học kỳ năm, xếp loại học tập chia thành loại là: Giỏi, Khá, Trung bình, Yếu, Kém Do đó, việc đánh giá xếp loại học lực học sinh thực chặt chẽ Trong báo này, chúng tơi đề xuất giải pháp ứng dụng thuật tốn Bayes vấn đề dự báo học lực học sinh dựa điểm số môn học sinh II ĐÁNH GIÁ HỌC LỰC Theo quy chế đánh giá xếp loại học lực[7], kết học lực học sinh tổng hợp, tính tốn đánh giá qua kiểm tra A Dữ liệu phục vụ cho việc đánh giá Các hình thức kiểm tra bao gồm: Kiểm tra miệng (kiểm tra hỏi đáp), kiểm tra viết, kiểm tra thực hành Các loại kiểm tra bao gồm: Kiểm tra thường xuyên: Kiểm tra miệng; kiểm tra viết tiết, kiểm tra thực hành tiết Kiểm tra định kỳ: Kiểm tra viết từ tiết trở lên; kiểm tra thực hành từ tiết trở lên, kiểm tra học kỳ Hệ số loại kiểm tra: Đối với môn học đánh giá cho điểm: Điểm kiểm tra thường xuyên tính hệ số 1, điểm kiểm tra viết kiểm tra thực hành tư tiết trở lên tính hệ số 2, điểm kiểm tra học kỳ tính hệ số Đối với môn đánh giá nhận xét: Kết nhận xét kiểm tra tính lần xếp loại mơn học sau học kỳ TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 46 ỨNG DỤNG THUẬT TỐN BAYES TRONG VẤN ĐỀ DỰ BÁO HỌC LỰC CỦA HỌC SINH PHỔ THƠNG Điểm trung bình mơn học kỳ (ĐTBmhk) trung bình cộng điểm KTtx, KTđk KThk với hệ số quy định Điểm a, Khoản 3, Điều Quy chế này: ĐTBmhk = Trong đó: TĐKTtx + x TĐKTđk + x ĐKThk Số KTtx + x Số KTđk + D: tập liệu huấn luyện, vector hoá dạng 𝑥⃗ = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) (1) Ci : tập tài liệu D thuộc lớp Ci với i={1,2,3,…} Các 𝑥1 , 𝑥2 , … , 𝑥𝑛 độc lập xác suất đôi với TĐKTđk: Tổng điểm KTđk ĐKThk: Điểm KThk Điểm trung bình mơn năm (ĐTBmcn) trung bình cộng ĐTBmhkI với ĐTBmhkII, ĐTBmhkII tính hệ số 2: Thuật tốn Nạve Bayes bản: Bước : Huấn luyện Naïve Bayes (dựa vào tập liệu) Tính xác suất P(Ci) ĐTBmhkI + x ĐTBmhkII Theo[8], mơ tả tốn cần giải sau: Dữ kiện cần có: TĐKTtx: Tổng điểm KTtx ĐTBmcn = III THUẬT TỐN NẠVE BAYES (2) ĐTBmhk ĐTBmcn số nguyên số thập phân lấy đến chữ số thập phân thứ sau làm tròn số B Tiêu chuẩn xếp loại hoc lực dựa điểm số Tính xác suất P(xk|Ci) Bước 2: Phân lớp Xnew Tính 𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑖 ) = 𝑃(𝐶𝑖 ) ∏𝑛𝑘=1 P(𝑥𝑘 |𝐶𝑖 ) Xnew gán vào lớp Cq cho 𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑞 ) = max(𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑖 )) Loại Giỏi: Điểm trung bình mơn học từ 8.0 trở lên, điểm trung bình mơn Tốn, Ngữ văn từ 8.0 trở lên Khơng có mơn học điểm trung bình 6.5 Các môn học đánh giá nhận xét đạt loại Đ Loại Khá: Điểm trung bình mơn học từ 6.5 trở lên, điểm trung bình mơn Tốn, Ngữ văn từ 6.4 trở lên Khơng có mơn học điểm trung bình 5.0 Các mơn học đánh giá nhận xét đạt loại Đ Loại Trung bình Điểm trung bình mơn học từ 5.0 trở lên, điểm trung bình mơn Tốn, Ngữ văn từ 5.0 trở lên (3) 𝑃(𝑥𝑖 |𝐶𝑖 ) tính sau: 𝑃(𝑥𝑘 |𝐶𝑖 ) = 𝐶𝑖,𝐷 {𝑥𝑘 } |𝐶𝑖,𝐷 | (4) Trong đó: 𝐶𝑖,𝐷 số mẫu tập liệu huấn luyện D thuộc lớp 𝐶𝑖 𝐶𝑖,𝐷 {𝑥𝑘 } số mẫu tập 𝐶𝑖,𝐷 mà có nhân giá trị 𝑥𝑘 IV ĐỀ XUẤT PHƯƠNG PHÁP DỰ BÁO HỌC LỰC HỌC SINH A Sử dụng thuật toán Bayes để dự báo học lực Dữ liệu đầu vào thông tin điểm mơn học học sinh: Tốn, Vật lý, Hóa, Sinh, Tin học, Ngữ văn, Lịch sử, Địa lý, Tiếng Anh, GDCD, KTNN, Thể dục, GDQP hình Đầu thông tin dự báo xếp loại học lực: Giỏi, Khá, Trung bình, Yếu, Kém Khơng có mơn học điểm trung bình 3.5 Các môn học đánh giá nhận xét đạt loại Đ Loại Yếu: Điểm trung bình mơn học từ 3.5 trở lên Khơng có mơn học điểm trung bình 2.0 Loại Kém: Các trường học cịn lại Hình 1: Ví dụ liệu đầu vào Để sử dụng phân lớp Bayes, ta xác định nhãn lớp Ci, 𝑥⃗ sau: SỐ 01 (CS.01) 2020 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 47 Đào Đức Anh, Nguyễn Tu Trung, Vũ Văn Thỏa Nhãn Ci là: Giỏi, Khá, Trung bình, Yếu, Kém 𝑥⃗ vector thơng tin điểm môn học học sinh 𝐹(𝑋𝑛𝑒𝑤 , 𝑌ế𝑢) = max(𝐹(𝑋𝑛𝑒𝑤 , 𝐶𝑖 )) loại Giỏi, Khá Trung bình ĐTBmhk(Mơn[i]) = 8), K (6.5