12 3.1 Nạve Bayes
4.5 Thí nghiệm Bagging With Random Forest
❖ Mục tiêu của thí nghiệm:
Thí nghiệm này nhằm đánh giá phương pháp Bagging With Random Forest (lấy mẫu mười lần bộ dữ liệu gốc_bộ dữ liệu lấy mẫu cĩ kích thước tương tự bộ dữ liệu gốc từ đĩ tạo ra được 10 mơ hình Random Forest để phân lớp_biểu quyết chọn nhãn theo nhãn mà nhiều mơ hình cùng phân vào nhất) cho bài tốn dự đốn tình trạng học tập của sinh viên (bằng cách phân thành các lớp study_cịn học tập, other_chuyển trường, fail_đã thơi học). Những trường hợp khá hiếm gặp là tốt nghiệp sớm tơi xem như nằm trong lớp study vì họ cũng đã hồn thành chương trình học và khơng thuộc diện cần khoanh vùng để cảnh cáo học vụ.
❖ Thiết kế thí nghiệm:
Phương pháp thiết kế và dữ liệu sử dụng:
70
Phương pháp đánh giá tơi sử dụng là kiểm tra chéo (cross-validation) 10-fold và phương pháp chia dữ liệu (percentage split) train, test với tỷ lệ 66% dữ liệu train và 44% dữ liệu test.
Đối với cả 2 phương pháp trên tơi đều thực hiện trên bộ dữ liệu gồm cĩ 5250 instance. Với dữ liệu đầu vào là giá trị của các thuộc tính ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh, mã trường thpt.
Kết quả dự đốn là lớp của trạng thái học tập của sinh viên đĩ: cịn theo học/cĩ thể tốt nghiệp (lớp study), cĩ khả năng sẽ bỏ học (lớp fail), cĩ thể chuyển trường hoặc 1 lý do nào khác (lớp other).
❖ Cơng cụ thực hiện:
Phần cứng tơi dùng để thực nghiệm gồm chip vi xử lý Intel(R) Core (TM) i7- 4600u CPU @ 2.10Ghz 2.70Ghz , RAM 8.0 GB, hệ điều hành 64 bit, x64-based processor.
Bộ dữ liệu như tơi đã giới thiệu ở chương 1, sau đĩ hiện thực hĩa các bước làm trong chương 2 bằng ngơn ngữ lập trình Python.
Sau đĩ tơi tiến hành khai thác dữ liệu với các kỹ thuật đã nêu tại chương 3 bằng Weka. Quá trình hiển thị, đánh giá kết quả thực nghiệm tơi cũng thực hiện bằng Weka.
Với phương pháp cross-validation 10-fold:
Một phần của kết quả dự đốn:
71
Với phương pháp Bagging With Random Forest thì khi tính mặt bằng chung về số kết quả chính xác (Correctly Classified Instances) phương pháp cho ra kết quả rất cao 94.84%, cao xấp xỉ Decision Tree.
Cịn khi tính theo các độ đo chi tiết ta thấy rõ lớp study chính xác khá cao, cịn FP Rate thì vẫn cịn lớn đáng kể.
Lý giải về việc này theo tơi là do Bagging thực hiện lấy mẫu 10 lần với cùng kích thước như dữ liệu gốc và tiến hành huấn luyện bằng Random Forest. Sau đĩ khi dự đốn thì chọn ra nhãn được nhiều mơ hình Random Forest dự đốn nhất trong số 10 mơ hình đã huấn luyện. Cách thức này tuy phức tạp nhưng lại lấy ý kiến của số đơng, nhờ đĩ nhãn
72
chọn ra chính là biểu quyết của nhiều trường hợp lấy mẫu khác nhau dẫn đến kết quả tương đối chính xác.
Với phương pháp percentage split train 66%, test 44%
Một phần của kết quả dự đốn:
Phương pháp thử nghiệm này cho ta thấy kết quả cho ra vẫn tương đồng với phương pháp thử nghiệm trên khi sử dụng Bagging With Random Forest. Vì vậy tơi xin kết luận vì Bagging With Random Forest theo tơi đang làm tốt tuy nhiên vẫn khơng hơn được Decision Tree.
73