Thí nghiệm Decision tree(J48)

Một phần của tài liệu DA1_17520694_Nguyễn Lưu Thùy Ngân (Trang 65 - 68)

12 3.1 Nạve Bayes

4.4 Thí nghiệm Decision tree(J48)

66

❖ Mục tiêu của thí nghiệm:

Thí nghiệm này nhằm đánh giá phương pháp Decision tree(J48) cho bài tốn dự đốn tình trạng học tập của sinh viên (bằng cách phân thành các lớp study_cịn học tập, other_chuyển trường, fail_đã thơi học). Những trường hợp khá hiếm gặp là tốt nghiệp sớm tơi xem như nằm trong lớp study vì họ cũng đã hồn thành chương trình học và khơng thuộc diện cần khoanh vùng để cảnh cáo học vụ.

❖ Thiết kế thí nghiệm:

Phương pháp thiết kế và dữ liệu sử dụng:

Phương pháp đánh giá tơi sử dụng là kiểm tra chéo (cross-validation) 10-fold và phương pháp chia dữ liệu (percentage split) train, test với tỷ lệ 66% dữ liệu train và 44% dữ liệu test.

Đối với cả 2 phương pháp trên tơi đều thực hiện trên bộ dữ liệu gồm cĩ 5250 instance. Với dữ liệu đầu vào là giá trị của các thuộc tính ngành, số tín chỉ, điểm trung bình, phương thức trúng tuyển, điểm trúng tuyển, mã tỉnh, mã trường thpt.

thể tốt nghiệp (lớp study), cĩ khả năng sẽ bỏ học (lớp fail), cĩ thể chuyển trường hoặc 1 lý do nào khác (lớp other).

❖ Cơng cụ thực hiện:

Phần cứng tơi dùng để thực nghiệm gồm chip vi xử lý Intel(R) Core (TM) i7- 4600u CPU @ 2.10Ghz 2.70Ghz , RAM 8.0 GB, hệ điều hành 64 bit, x64-based processor.

67

Bộ dữ liệu như tơi đã giới thiệu ở chương 1, sau đĩ hiện thực hĩa các bước làm trong chương 2 bằng ngơn ngữ lập trình Python.

Sau đĩ tơi tiến hành khai thác dữ liệu với các kỹ thuật đã nêu tại chương 3 bằng Weka. Quá trình hiển thị, đánh giá kết quả thực nghiệm tơi cũng thực hiện bằng Weka.

Với phương pháp cross-validation 10-fold:

Một phần của kết quả dự đốn:

68

Với phương pháp Decision tree thì khi tính mặt bằng chung về số kết quả chính xác (Correctly Classified Instances) phương pháp cho ra kết quả rất cao 94.55%, cao hơn cả Nạve Bayes và Bayesian Network.

Cịn khi tính theo các độ đo chi tiết ta thấy rõ lớp study chính xác khá cao, cịn FP Rate thì đã thấp hơn Bayesian Network nhưng vẫn cịn lớn đáng kể.

Điều này cho thấy rằng mơ hình cây mà Decision tree xây dựng, xác định tốt hơn về thuộc tính nào chính/quan trọng cho việc phân lớp ra kết quả chính xác. Việc này theo tơi thấy nĩ đã làm tốt hơn Bayesian Network. Cĩ thể là do Bayesian Network cần cĩ một mạng lưới suy luận nhân quả dày đặc thì nĩ mới phát huy hiệu quả. Cịn riêng ở bài tốn và dữ liệu hiện tại thì Decision Tree đang làm tốt nhất trong 3 mơ hình Nạve Bayes, Bayesian Network, Decision Tree.

Với phương pháp percentage split train 66%, test 44%

Một phần của kết quả dự đốn:

Qua phương pháp thử nghiệm này ta thấy kết quả cho ra vẫn tương đồng với phương pháp thử nghiệm trên khi sử dụng Decision Tree. Vì vậy tơi xin kết luận vì Decision Tree theo tơi đang làm tốt nhất trong 3 mơ hình Nạve Bayes, Bayesian Network, Decision Tree với bài tốn và dữ liệu hiện tại.

Một phần của tài liệu DA1_17520694_Nguyễn Lưu Thùy Ngân (Trang 65 - 68)

Tải bản đầy đủ (DOCX)

(72 trang)
w