Training mô hình

Một phần của tài liệu (LUẬN văn THẠC sĩ) sử dụng một số thuật toán học máy để dự đoán thành tích học tập của học sinh (Trang 45 - 47)

Chia dữ liệu của mình thành hai phần train và test độc lập với nhau. Ta sẽ chia theo tỷ lệ 67% cho data train và 33% cho data test. Phần train chúng ta sẽ dành cho việc học và khởi tạo model và phần test sẽ dành cho việc kiểm nghiệm độ chính xác của model sau khi học dữ liệu từ tập train.

Nhắc lại bài toán ở đây là dự đoán đầu ra y là trung bình các môn (TBCM) của mỗi học sinh.

Ở phần này chúng ta sẽ tập trung vào tìm hiểu thăm dò khám phá các thuật toán phù hợp nhất cho bộ dữ liệu đã được chuẩn hóa ở phần trước. Sau khi xác định được những đặc trưng quan trọng của bài toán từ những đặc trưng chúng ta đã xử lý và thu thập được, bước tiếp theo chúng ta cần làm là sẽ tiến sẽ thăm dò độ chính xác của một số thuật toán trên hai tập dữ liệu. Một tập để tất cả các đặc trưng thu thập được, và một tập sử dụng features selection, loại đi những đặc trưng không quan trọng.

Kết quả thăm dò dataset trên các thuật toán có sử dụng feature slection và sử dụng all features có sự khác biệt nhau rõ rệt. Độ chính xác khi đầu ra trên các thuật khi sử dụng all feature chưa tối ưu tham số dao động từ khoảng 40% đến 60%. Nhưng khi sử dụng feature selection dao động từ 60% đến 80% cải thiện đáng kể tầm 20% so với việc chúng ta sử dụng toàn bộ feature để đự đoán, điều đó làm cho độ chính xác giảm thấp và tốc độ phép tính tăng cao dẫn tới hiệu suất dự đoán chậm hơn so với thời gian thực. Điều đó kết luận rằng chúng ta đã lựa chọn ra

các features đủ tốt ảnh hưởng trực tiếp tới bài toán. Hình 3.1 cho thấy Accuracy của các model khi sử dụng all features. Sau khi thực hiện kỹ thuật lựa chọn đặc trưng, kết quả thể hiện trong hình 3.2. Bảng 3.1 liệt kê độ chính xác của các mô hình training với dữ liệu đầy đủ features.

Bảng 3.1: Độ chính xác của các mô hình khi training với dữ liệu đủ thuộc tính. STT Tên thuật toán Độ chính xác

1 LR - Hồi quy tuyến tính 0.852252(0.150491)

2 KNN - K láng giềng 0.827027(0.135243)

3 Tree - Cây quyết định 0.729730(0.092227)

4 NB -Navie Bayes 0.120721(0.027680) 5 SVM -Máy véc tơ hỗ trợ 0.852252(0.150491) 6 RF - Rừng ngẫu nhiên 0.854054(0.150253) 7 AD - AdBooting 0.628829(0.179132) 8 GD -GDBooting 0.839640(0.136913) 9 BG - GradientBoosting 0.827027(0.136438) prc.compare_model(dft, y) LR: 0.852252 (0.150491) KNN: 0.827027 (0.135243) Tree: 0.729730 (0.092227) NB: 0.120721 (0.027680) SVM: 0.852252 (0.150491) RF: 0.854054 (0.150253) AD: 0.628829 (0.179132) GD: 0.839640 (0.136913) BG: 0.827027 (0.136438)

Hình 3.1: Accuracy explode các model khi sử dụng all features

Bảng 3.2 tính toán độ chính xác khi lựa chọn features. Những features không có ý nghĩa đã được lược bỏ và làm độ chính xác tăng.

Hình 3.2: Accuracy explode các model khi sử dụng features selection

Bảng 3.2: Độ chính xác của các mô hình khi training với dữ liệu lựa chọn thuộc tính. STT Tên thuật toán Độ chính xác

1 LR - Hồi quy tuyến tính 0.850450(0.149300)

2 KNN - K láng giềng 0.825225(0.140217)

3 Tree - Cây quyết định 0.720721(0.115372)

4 NB -Navie Bayes 0.176577(0.070386) 5 SVM -Máy véc tơ hỗ trợ 0.852252(0.150491) 6 RF - Rừng ngẫu nhiên 0.854054(0.150253) 7 AD - AdBooting 0.675676(0.150318) 8 GD -GDBooting 0.839640(0.142491) 9 BG - GradientBoosting 0.821622(0.144414)

Một phần của tài liệu (LUẬN văn THẠC sĩ) sử dụng một số thuật toán học máy để dự đoán thành tích học tập của học sinh (Trang 45 - 47)

Tải bản đầy đủ (PDF)

(62 trang)