Thuộc tính chọn GA_RF và GA_Kernel k-NN trên dữ liệu Arcene

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn (Trang 43 - 45)

Trong Hình 3.3, đường nét đậm thể hiện kết quả của tôi, còn đường nét đứt thể hiện kết quả của thuật toán GA_RF.

Thuật toán

Số thuộc tính trích chọn

Thấp nhất Trung bình Cao nhất

GA_Kernel k-NN 112 213.5 257

GA_RF 87 265.5 409

Bảng 3.4: Số thuộc tính trích trọn GA_Kernel k-NN và GA_RF trên Arcene

Với tổng số 450 thuộc tính của bộ dữ liệu Arcene, sau khi thực hiện thuật toán

GA_Kernel k-NN, số thuộc tính trung bình giảm còn 213.5 thuộc tính, trung

bình giảm còn 47.44 %. Phương sai là 34.97 thuộc tính. Đối với thuật toán GA_RF, số thuộc tính giảm trung bình còn 265.5 thuộc tính, trung bình giảm còn 59.00 %. Phương sai là 75.51 thuộc tính. Từ biểu đồ và số liệu thống kê cho

thấy số lượng thuộc tính được trích trọn trong thuật toán GA_Kernel k-NN ít

hơn và đồng đều hơn thuận toán GA_RF

- Độ chính xác phân lớp GA_Kernel k-NN và một số công bố khác

Tôi lấy độ chính xác trung bình sau 50 lần thực nghiệm của thuật toán

GA_Kernel k-NN so sánh với một số công bố. Tài liệu [15] công bố thuật toán

phương sai bằng 4.00 %, cùng kết quả một số thuật toán phân lớp điển hình khác. Tài liệu [8] công bố thuật toán Rfprox-SVM (Proximity Measure and Support Vector Machine) sử dụng hai tham số là Jaccard index và Kuncheva index với độ chính xác phân lớp lần lượt là 64.00% và 78.00 %.

Phương pháp Độ chính xác phân lớp

GA_Kernel k-NN 90.05 % +/- 2.03

Rfprox-SVM (Jaccard index) [8] 64.00 % Rfprox-SVM (Kuncheva index) [8] 78.00 %

Selective Bayesian Forest Classifier (SBFC) [15] 72.20 % +/- 4.00 Bayesian Additive Regression Trees (BART) 71.60 % +/- 5.00 Random Forest (RF) 73.60 % +/- 9.00

Na’ıve Bayes (NB) 69.00 % +/- 0

Classification and Regression Trees (CART) 63.00 % +/- 0

C5.0 66.00 % +/- 0

Logistic Regression (LR) 52.00 % +/- 0 Support Vector Machines (SVM) 72.00 % +/- 0

Lasso 65.60 % +/- 5.00

Bảng 3.5: Độ chính xác GA_Kernel k-NN và công bố trên Arcene

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu phương pháp tìm thuộc tính tối ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn (Trang 43 - 45)