Thuộc tính chọn GA_RF và GA_Kernel k-NN trên dữ li- 123docz.net

Trong Hình 3.3, đường nét đậm thể hiện kết quả của tôi, còn đường nét đứt thể hiện kết quả của thuật toán GA_RF.

Thuật toán

Số thuộc tính trích chọn

Thấp nhất Trung bình Cao nhất

GA_Kernel k-NN 112 213.5 257

GA_RF 87 265.5 409

Bảng 3.4: Số thuộc tính trích trọn GA_Kernel k-NN và GA_RF trên Arcene

Với tổng số 450 thuộc tính của bộ dữ liệu Arcene, sau khi thực hiện thuật toán

GA_Kernel k-NN, số thuộc tính trung bình giảm còn 213.5 thuộc tính, trung

bình giảm còn 47.44 %. Phương sai là 34.97 thuộc tính. Đối với thuật toán GA_RF, số thuộc tính giảm trung bình còn 265.5 thuộc tính, trung bình giảm còn 59.00 %. Phương sai là 75.51 thuộc tính. Từ biểu đồ và số liệu thống kê cho

thấy số lượng thuộc tính được trích trọn trong thuật toán GA_Kernel k-NN ít

hơn và đồng đều hơn thuận toán GA_RF

- Độ chính xác phân lớp GA_Kernel k-NN và một số công bố khác

Tôi lấy độ chính xác trung bình sau 50 lần thực nghiệm của thuật toán

GA_Kernel k-NN so sánh với một số công bố. Tài liệu [15] công bố thuật toán

phương sai bằng 4.00 %, cùng kết quả một số thuật toán phân lớp điển hình khác. Tài liệu [8] công bố thuật toán Rfprox-SVM (Proximity Measure and Support Vector Machine) sử dụng hai tham số là Jaccard index và Kuncheva index với độ chính xác phân lớp lần lượt là 64.00% và 78.00 %.

Phương pháp Độ chính xác phân lớp

GA_Kernel k-NN 90.05 % +/- 2.03

Rfprox-SVM (Jaccard index) [8] 64.00 % Rfprox-SVM (Kuncheva index) [8] 78.00 %

Selective Bayesian Forest Classifier (SBFC) [15] 72.20 % +/- 4.00 Bayesian Additive Regression Trees (BART) 71.60 % +/- 5.00 Random Forest (RF) 73.60 % +/- 9.00

Na’ıve Bayes (NB) 69.00 % +/- 0

Classification and Regression Trees (CART) 63.00 % +/- 0

C5.0 66.00 % +/- 0

Logistic Regression (LR) 52.00 % +/- 0 Support Vector Machines (SVM) 72.00 % +/- 0

Lasso 65.60 % +/- 5.00

Bảng 3.5: Độ chính xác GA_Kernel k-NN và công bố trên Arcene

Thuộc tính chọn GA_RF và GA_Kernel k-NN trên dữ liệu Arcene

Các toán tử của thuật toán GA

Tổng quan các bộ dữ liệu sử dụng