CHƢƠNG 1 : GIỚI THIỆU TỔNG QUAN VỀ HỌC MÁY VÀ HỌC SÂU
3.2. Ứng dụng mơ hình mạng học sâu trong bài tốn dự báo điểm tốt nghiệp
3.2.3. Mơ hình dự báo kết quả học tập của sinh viên
Để thực hiện dự báo kết quả học tập của sinh viên cần trải qua quá trình gồm 4 bƣớc:
55
Bƣớc 1: Tiền xử lý dữ liệu
Để huấn luyện và kiểm thử 1 mơ hình thì ta sẽ chọn 1 lƣợng dữ liệu đủ để mơ hình học, huấn luyện và kiểm thử. Để cĩ thể huấn luyện đƣợc một mơ hình cho kết quả tốt, độ chính xác của mơ hình cao thì ta nên huấn luyện mơ với bộ dữ liệu lớn hơn bộ dự liệu thực nghiệm. Ngồi ra việc tỷ lệ dữ liệu huấn luyện cao giúp mình cĩ thêm dữ liệu để thẩm định mơ hình. Vì vậy, luận văn sử dụng lớp TrainTestSplit đƣợc tích hợp sẵn trong thƣ viện Preprocessing đƣợc tích hợp sẵn trong Scikit - learn để chia bộ dữ liệu theo lệ 8: 2 (huấn luyện 80 %, kiểm thử 20 %) .
Bƣớc 2: Trích chọn đặc trƣng
Trong bái tốn dự báo, muốn dự đốn đƣợc điểm học phần này ta cần dựa trên các học phần điều kiện. Vì vậy các đặc trƣng sẽ là điểm của các học phần điều kiện của các học phần đĩ. Do mạng LSTM chỉ nhận một số kiểu định dạng dữ liệu vì thế mà cần phải chuyển đổi dữ liệu sang định dạng ba chiều mới cĩ thể huấn luyện đƣợc.
Khi đƣa vào một cặp ID Sinh viên và ID Học phần ta sẽ so sánh với các sinh viên khác trong tập huấn luyện. Ví dụ đối với sinh viên A học học phần “Quản trị mạng với Linux” ta cần lấy tồn bộ điểm sinh viên cùng học học phần Quản trị mạng với Linux” và các học phần điều kiện bao gồm “Quản trị mạng với windowsever, Mã nguồn mở” rồi sau đĩ lấy tồn bộ điểm học phần điều kiện mà
sinh viên A đã học.
Mục đích của việc này sẽ dựa vào tần suất của Điểm để dự đốn điểm của sinh viên. Từ đĩ cĩ thể tính tốn tối ƣu hàm mất mát và cập nhật các tham số đặc trƣng của điểm.
Bƣớc 3: Huấn luyện dữ liệu
Trong giai đoạn này, dữ liệu đƣợc đƣa vào các mạng học sâu và đƣợc huấn luyện để dự đốn gán các sai lệch và trọng số ngẫu nhiên.
56
Với tập dữ liệu của Cao đẳng Cơ Khí Nơng Nghiệp ta cần xây dựng mơ hình để huấn luyện cho từng học phần một. Vì vậy trong luận văn này sẽ cĩ 2 mơ hình huấn luyện cho 2 học phần
Bƣớc 4: Đánh giá tính hiệu quả của mơ hình
Để đánh giá hiệu quả của các mơ hình, chúng ta cĩ thể căn cứ vào nhiều tiêu chí nhƣ tính chính xác (Accuracy), RMSE, MSE, R2,… Tính hữu dụng (Useful) và tính ổn định (Reliability). Ở trong luận văn này tơi đề cập đến tính chính xác Accuracy, MSE, RMSE và điểm R2 để đánh giá các thực nghiệm.
Dữ liệu điểm dự báo đƣợc phép sai số trong khoảng điểm.