Support Vector Machine (Máy véc tơ hỗ trợ)

Một phần của tài liệu Dự Đoán Điểm học kỳ tiếp theo bằng phương pháp học máy, học sâu (Trang 23 - 27)

CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP HỌC MÁY SỬ DỤNG TRONG BÀI TOÁN DỰ ĐOÁN KẾT QUẢ HỌC TẬP

2.5 Support Vector Machine (Máy véc tơ hỗ trợ)

Support Vector Machine là một phương pháp học có giám sát được sử dụng để phân loại. Có ba bài báo đã sử dụng Support Vector Machine làm phương pháp dự đoán thành tích của sinh viên. Hamalainen và cộng sự. (2006) đã chọn Support Vector Machine làm kỹ thuật dự đoán của họ vì nó rất phù hợp

23

với các tập dữ liệu nhỏ. Sembiring et al. (2011) cho rằng Support Vector Machine có khả năng tổng quát hóa tốt và nhanh hơn các phương pháp khác.

Trong khi đó, nghiên cứu được thực hiện bởi Gray và cộng sự (2014) đã chứng minh rằng phương pháp Support Vector Machine đã đạt được độ chính xác dự đoán cao nhất trong việc xác định những sinh viên có nguy cơ thất bại . Bảng 5 cho thấy kết quả của độ chính xác dự đoán.

Bảng 2.6 Bảng độ chính xác của kết quả sử dụng phương pháp Support Vector Machine

Chúng tôi sẽ thảo luận về phân tích kết quả của các công trình gần đây trong việc dự đoán kết quả học tập của sinh viên. Phân tích tổng hợp này dựa trên các phương pháp dự đoán có độ chính xác cao nhất và cũng là những yếu tố quan trọng chính có thể ảnh hưởng đến kết quả học tập của sinh viên. Độ chính xác của dự đoán sử dụng phương pháp phân loại được nhóm theo thuật toán để dự đoán kết quả học tập của sinh viên từ năm 2002 đến 2015. Bằng cách nhìn vào đồ thị trong hình 2.5, Mạng nơ-ron có độ chính xác dự đoán cao nhất (98%), tiếp theo là Cây quyết định (91%). Tiếp theo, Support Vector Machine và K-Nearest Neighbor cho cùng độ chính xác, đó là (83%). Cuối cùng, phương pháp có độ chính xác dự đoán thấp hơn là Naive Bayes by (76%).

Kết quả về độ chính xác của dự đoán phụ thuộc vào các thuộc tính hoặc tính năng đã được sử dụng trong quá trình dự đoán. Phương pháp Mạng nơ-ron cho độ chính xác dự đoán cao nhất do ảnh hưởng từ các thuộc tính chính. Thuộc tính này là sự kết hợp của hai tính năng, đó là đánh giá bên trong và bên ngoài.

Với việc chỉ sử dụng một biến, đó là các đánh giá bên ngoài, độ chính xác sẽ giảm (1%). Biến được sử dụng nhiều thứ ba là các đánh giá nội bộ cho kết quả chính xác (81%). Nó cho thấy đánh giá bên ngoài, tức là điểm đạt được trong

24

kỳ thi cuối kỳ, đóng một vai trò quan trọng trong việc dự đoán kết quả học tập của sinh viên. Trong khi, biến có ý nghĩa tác động ít nhất đến kết quả học tập của sinh viên là các yếu tố tâm lý với độ chính xác chỉ (69%). Các yếu tố tâm lý thường sử dụng dữ liệu định tính nên thuật toán Mạng nơ-ron khó đưa ra dự đoán thay vì sử dụng dữ liệu định lượng. Tuy nhiên, phương pháp Neural Network vẫn có ít lỗi dự đoán tối đa hơn. Sai số dự đoán tối đa nhỏ hơn (10%).

Một ưu điểm khác của Neural Network là khả năng nắm bắt các mối quan hệ phi tuyến tính một cách dễ dàng. Nó còn được gọi là hệ thống thích ứng do khả năng dễ dàng cập nhật dữ liệu lịch sử giống như bộ não con người. Vì vậy, mô hình luôn hoạt động ngoài cơ sở tri thức. Ngoài ra, điểm mạnh của mạng nơ- ron là khả năng học hỏi từ một tập hợp dữ liệu hạn chế. Độ chính xác dự đoán cao thứ hai là phương pháp Cây quyết định bởi (91%) độ chính xác về hiệu suất. Trong phương pháp Cây quyết định, yếu tố mang lại độ chính xác cao nhất trong việc dự đoán kết quả học tập của sinh viên là CGPA. Có hai nghiên cứu khác ủng hộ tuyên bố này khi chúng bao gồm CGPA làm tính năng chính của chúng, dự đoán kết quả là khoảng (90%) độ chính xác về hiệu suất. Có thể kết luận rằng Cây quyết định có thể xử lý cả dữ liệu số và dữ liệu phân loại, hoạt động tốt trong tập dữ liệu lớn và dễ hiểu, diễn giải được mối quan hệ giữa các biến. Bên cạnh đó, thuộc tính ít quan trọng hơn trong việc dự đoán kết quả học tập của sinh viên là các yếu tố tâm lý với kết quả chính xác chỉ (65%). Nó cho thấy rằng Cây quyết định không phù hợp để dự đoán hiệu suất của sinh viên bằng cách sử dụng các biến tâm lý. Tiếp theo là Support Vector Machine với hiệu suất chính xác khoảng (83%). Dựa trên kết quả phân tích, yếu tố tâm lý là thuộc tính phù hợp nhất để dự đoán kết quả học tập của sinh viên bằng phương pháp Support Vector Machine. Tuy nhiên, kết quả giảm xuống (73%) độ chính xác về hiệu suất khi các hoạt động ngoại khóa được đưa vào như một tính năng khác. Ngược lại, K-Nearest Neighbor cho thấy độ chính xác cao (83%) với sự kết hợp của ba thuộc tính là đánh giá nội bộ, CGPA và các hoạt động ngoại

25

khóa trong việc dự đoán kết quả học tập của sinh viên. Khi so sánh với 2 phương pháp còn lại là Decision Tree và Nave Bayes thì kết quả chính xác thấp hơn so với phương pháp KNearest Neighbor. Một nghiên cứu khác cũng sử dụng các hoạt động ngoại khóa làm thuộc tính, tuy nhiên họ đã kết hợp nó với các thuộc tính khác nên độ chính xác của dự đoán cao hơn so với việc chỉ sử dụng một thuộc tính. Cuối cùng, phương pháp có độ chính xác dự đoán thấp nhất là Naive Bayes theo (76%). Các biến được sử dụng là CGPA, nhân khẩu học của sinh viên, nền tảng trường trung học, học bổng, tương tác mạng xã hội. Tất cả các thuộc tính này cũng được sử dụng trong phương pháp Mạng nơ-ron và phương pháp Cây quyết định nhưng kết quả cho thấy Naive Bayes cho độ chính xác cao nhất so với Mạng nơ-ron và Cây quyết định. Điều này là do các thuộc tính được sử dụng có ý nghĩa với nhau khi sử dụng Naive Bayes làm phương pháp dự đoán.

26

Một phần của tài liệu Dự Đoán Điểm học kỳ tiếp theo bằng phương pháp học máy, học sâu (Trang 23 - 27)

Tải bản đầy đủ (PDF)

(75 trang)