Thí nghiệm Nạve Bayes

Một phần của tài liệu ĐỒ ÁN PHÂN TÍCH VÀ CẢNH BÁO XU HƯỚNG HỌC TẬP CỦA SINH VIÊN (Trang 58 - 61)

12 3.1 Nạve Bayes

4.2 Thí nghiệm Nạve Bayes

❖ Mục tiêu của thí nghiệm:

Thí nghiệm này nhằm đánh giá phương pháp Nạve Bayes cho bài tốn dự đốn tình trạng học tập của sinh viên (bằng cách phân thành các lớp study_cịn học tập, other_chuyển trường, fail_đã thơi học). Những trường hợp khá hiếm gặp là tốt nghiệp sớm tơi xem như nằm trong lớp study vì họ cũng đã hồn thành chương trình học và khơng thuộc diện cần khoanh vùng để cảnh cáo học vụ.

❖ Thiết kế thí nghiệm:

Phương pháp thiết kế và dữ liệu sử dụng:

Phương pháp đánh giá tơi sử dụng là kiểm tra chéo (cross-validation) 10-fold và phương pháp chia dữ liệu (percentage split) train, test với tỷ lệ 66% dữ liệu train và 44% dữ liệu test.

Đối với cả 2 phương pháp trên tơi đều thực hiện trên bộ dữ liệu gồm cĩ 5250 instance. Với dữ liệu đầu vào là giá trị của các thuộc tính ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh, mã trường thpt.

Kết quả dự đốn là lớp của trạng thái học tập của sinh viên đĩ: cịn theo học/cĩ thể tốt nghiệp (lớp study), cĩ khả năng sẽ bỏ học (lớp fail), cĩ thể chuyển trường hoặc 1 lý do nào khác (lớp other).

59

Phần cứng tơi dùng để thực nghiệm gồm chip vi xử lý Intel(R) Core (TM) i7- 4600u CPU @ 2.10Ghz 2.70Ghz , RAM 8.0 GB, hệ điều hành 64 bit, x64-based processor.

Bộ dữ liệu như tơi đã giới thiệu ở chương 1, sau đĩ hiện thực hĩa các bước làm trong chương 2 bằng ngơn ngữ lập trình Python.

Sau đĩ tơi tiến hành khai thác dữ liệu với các kỹ thuật đã nêu tại chương 3 bằng Weka. Quá trình hiển thị, đánh giá kết quả thực nghiệm tơi cũng thực hiện bằng Weka.

Với phương pháp cross-validation 10-fold:

Một phần của kết quả dự đốn:

Với phương pháp Nạve Bayes thì khi tính mặt bằng chung về số kết quả chính xác (Correctly Classified Instances) phương pháp cho ra kết quả khá cao 89.95%. Cịn khi tính theo các độ đo chi tiết ta thấy rõ lớp study cĩ chỉ số khá cao, tuy nhiên FP Rate lại khơng nhỏ chứng tỏ cĩ nhiều trường hợp bị chỉ định sai vào lớp khác vẫn chiếm tỷ lệ khơng nhỏ.

Theo tơi đây là do Nạve Bayes huấn luyện bằng cách xây dựng bảng xác suất sẵn cĩ. Khi đưa input 1 trường hợp test mới vào thì mơ hình dựa vào các thuộc tính của input đĩ và bảng xác suất đã xây dựng để suy luận. Nhưng do Nạve Bayes giả sử về tính độc lập giữa các thành phần, mà thực sự các thành phần trong bộ dữ liệu này cĩ liên hệ với nhau. Từ đĩ dẫn đến việc dự đốn khơng chính xác và xem đây chính là phương pháp thiếu chính xác nhất trong cả 5 mơ hình được thí nghiệm.

Với phương pháp percentage split train 66% ,test 44%

Một phần của kết quả dự đốn:

Các thơng số:

61

Qua phương pháp thử nghiệm này ta thấy kết quả cho ra vẫn tương đồng với phương pháp thử nghiệm trên khi sử dụng Nạve Bayes. Vì vậy tơi xin kết luận vì Nạve Bayes giả sử về tính độc lập giữa các thành phần, từ đĩ dẫn đến việc dự đốn thiếu

chính xác nhất trong cả 5 mơ hình được thí nghiệm.

Một phần của tài liệu ĐỒ ÁN PHÂN TÍCH VÀ CẢNH BÁO XU HƯỚNG HỌC TẬP CỦA SINH VIÊN (Trang 58 - 61)

w