12 3.1 Nạve Bayes
4.3 Thí nghiệm Bayesian Network
❖ Mục tiêu của thí nghiệm:
Thí nghiệm này nhằm đánh giá phương pháp Bayesian Network cho bài tốn dự đốn tình trạng học tập của sinh viên (bằng cách phân thành các lớp study_cịn học tập, other_chuyển trường, fail_đã thơi học). Những trường hợp khá hiếm gặp là tốt nghiệp sớm tơi xem như nằm trong lớp study vì họ cũng đã hồn thành chương trình học và khơng thuộc diện cần khoanh vùng để cảnh cáo học vụ.
❖ Thiết kế thí nghiệm:
Phương pháp thiết kế và dữ liệu sử dụng:
62
Phương pháp đánh giá tơi sử dụng là kiểm tra chéo (cross-validation) 10-fold và phương pháp chia dữ liệu (percentage split) train, test với tỷ lệ 66% dữ liệu train và 44% dữ liệu test.
Đối với cả 2 phương pháp trên tơi đều thực hiện trên bộ dữ liệu gồm cĩ 5250 instance. Với dữ liệu đầu vào là giá trị của các thuộc tính ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh, mã trường thpt.
Kết quả dự đốn là lớp của trạng thái học tập của sinh viên đĩ: cịn theo học/cĩ thể tốt nghiệp (lớp study), cĩ khả năng sẽ bỏ học (lớp fail), cĩ thể chuyển trường hoặc 1 lý do nào khác (lớp other).
Phần cứng tơi dùng để thực nghiệm gồm chip vi xử lý Intel(R) Core (TM) i7- 4600u CPU @ 2.10Ghz 2.70Ghz , RAM 8.0 GB, hệ điều hành 64 bit, x64-based processor.
Bộ dữ liệu như tơi đã giới thiệu ở chương 1, sau đĩ hiện thực hĩa các bước làm trong chương 2 bằng ngơn ngữ lập trình Python.
Sau đĩ tơi tiến hành khai thác dữ liệu với các kỹ thuật đã nêu tại chương 3 bằng Weka. Quá trình hiển thị, đánh giá kết quả thực nghiệm tơi cũng thực hiện bằng Weka.
Với phương pháp cross-validation 10-fold:
Một phần của kết quả dự đốn:
63
Các thơng số:
Với phương pháp Bayesian Network thì khi tính mặt bằng chung về số kết quả chính xác (Correctly Classified Instances) phương pháp cho ra kết quả khá cao 93.94%, cao
hơn Nạve Bayes.
Cịn khi tính theo các độ đo chi tiết ta thấy rõ lớp study chính xác khá cao, tuy nhiên FP Rate lại khơng nhỏ chứng tỏ cĩ nhiều trường hợp bị chỉ định sai vào lớp khác vẫn chiếm tỷ lệ khơng nhỏ.
64
Lý giải về việc mơ hình này chính xác hơn Nạve Bayes là vì dựa vào suy diễn nhân quả. Lúc này ta khơng cịn dựa vào việc giả sử các thành phần thuộc tính độc lập nữa. Mà dựa vào xác suất thuộc tính này sẽ dẫn đến thuộc tính kia.
Tuy nhiên lớp fail vẫn dự đốn khơng chính xác cho lắm, tơi đã quan sát lại bộ dữ liệu và thấy cĩ các trường hợp.
Như trường hợp này:
Sinh viên này nhập học khĩa gần nhất, đã học được 12 tín chỉ. Điểm trung bình khơng hề thấp 7.4, điểm tuyển cũng khá cao. Tuy nhiên lại đã thơi học.
Mơ hình đã nhận định sai trường hợp này và các trường hợp tương tự. Các trường hợp này là khĩa đầu tiên
Số tín chỉ đã học và điểm trung bình, điểm tuyển cũng khơng tệ. Tuy nhiên vẫn đã thơi học.
Điều này theo tơi là vì cịn chưa nhiều thuộc tính. Dẫn đến việc sau khi xây dựng xong mạng nhân quả. Mạng khá đơn giản và máy đã rập khuơn theo đĩ mà suy luận dẫn đến việc sai sĩt. Vì từng trường hợp cụ thể cần cĩ các chi tiết khác, cụ thể hơn để cĩ thể minh họa chi tiết cho việc xây dựng mạng suy luận.
Với phương pháp percentage split train 66%, test 44%
65
Một phần của kết quả dự đốn:
Qua phương pháp thử nghiệm này ta thấy kết quả cho ra vẫn tương đồng với phương pháp thử nghiệm trên khi sử dụng Bayesian Network. Vì vậy tơi xin kết luận vì Bayesian Network khơng giả sử về tính độc lập giữa các thành phần, từ đĩ dẫn đến việc dự đốn tốt hơn Nạve Bayes nhưng vì mạng cịn khá đơn giản và máy đã rập khuơn theo đĩ mà suy luận dẫn đến việc sai sĩt và vẫn chưa thực sự chính xác khi dự đốn về lớp fail.