Trong Hình 3.3, đường nét đậm thể hiện kết quả của tôi, còn đường nét đứt thể hiện kết quả của thuật toán GA_RF.
Thuật toán
Số thuộc tính trích chọn
Thấp nhất Trung bình Cao nhất
GA_Kernel k-NN 112 213.5 257
GA_RF 87 265.5 409
Bảng 3.4: Số thuộc tính trích trọn GA_Kernel k-NN và GA_RF trên Arcene
Với tổng số 450 thuộc tính của bộ dữ liệu Arcene, sau khi thực hiện thuật toán
GA_Kernel k-NN, số thuộc tính trung bình giảm còn 213.5 thuộc tính, trung
bình giảm còn 47.44 %. Phương sai là 34.97 thuộc tính. Đối với thuật toán GA_RF, số thuộc tính giảm trung bình còn 265.5 thuộc tính, trung bình giảm còn 59.00 %. Phương sai là 75.51 thuộc tính. Từ biểu đồ và số liệu thống kê cho
thấy số lượng thuộc tính được trích trọn trong thuật toán GA_Kernel k-NN ít
hơn và đồng đều hơn thuận toán GA_RF
- Độ chính xác phân lớp GA_Kernel k-NN và một số công bố khác
Tôi lấy độ chính xác trung bình sau 50 lần thực nghiệm của thuật toán
GA_Kernel k-NN so sánh với một số công bố. Tài liệu [15] công bố thuật toán
phương sai bằng 4.00 %, cùng kết quả một số thuật toán phân lớp điển hình khác. Tài liệu [8] công bố thuật toán Rfprox-SVM (Proximity Measure and Support Vector Machine) sử dụng hai tham số là Jaccard index và Kuncheva index với độ chính xác phân lớp lần lượt là 64.00% và 78.00 %.
Phương pháp Độ chính xác phân lớp
GA_Kernel k-NN 90.05 % +/- 2.03
Rfprox-SVM (Jaccard index) [8] 64.00 % Rfprox-SVM (Kuncheva index) [8] 78.00 %
Selective Bayesian Forest Classifier (SBFC) [15] 72.20 % +/- 4.00 Bayesian Additive Regression Trees (BART) 71.60 % +/- 5.00 Random Forest (RF) 73.60 % +/- 9.00
Na’ıve Bayes (NB) 69.00 % +/- 0
Classification and Regression Trees (CART) 63.00 % +/- 0
C5.0 66.00 % +/- 0
Logistic Regression (LR) 52.00 % +/- 0 Support Vector Machines (SVM) 72.00 % +/- 0
Lasso 65.60 % +/- 5.00
Bảng 3.5: Độ chính xác GA_Kernel k-NN và công bố trên Arcene