Kết quả thực nghiệm với bộ dữ liệu Madelon

Một phần của tài liệu Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest (Trang 59)

Áp dụng kỹ thuật N-fold cross validation trên tập dữ liệu huấn luyện với N=2, tiến hành chạy giải thuật 50 lần với số lượng cây trong RF lần lượt là 100, 150, 200 và 250 chúng ta được các kết quả dưới đây.

Chương 6: Kết quả thực nghiệm Trang 59

Số cây trong RF=100

Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất

RF_Training 0.67084 0.012062 0.642 0.691 RF_Validate 0.712367 0.017894 0.665 0.765 RF_CT_Training 0.85237 0.005109 0.8375 0.8615 RF_CT_Validate 0.872867 0.005594 0.86 0.886667

Bảng 6. 2:Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học và trên dữ liệu kiêm chứng qua 50lần chạy thử với số cây trong RF=100

Hình 6. 1: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học (trái) và trên dữ liệu kiểm chứng ( phải) qua 50lần chạy thử với số cây trong RF=100

Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất

Thời gian (phút) 0.51 0.13 0.41 1.03

Bảng 6. 3: Mức tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Madelon qua 50 lần chạy thử với số cây trong RF=100

Chương 6: Kết quả thực nghiệm Trang 60

Số cây trong RF=150

Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất

RF_Training 0.68614 0.011303 0.663 0.709 RF_Validate 0.722567 0.012933 0.696667 0.758333 RF_CT_Training 0.85831 0.004418 0.8495 0.8675 RF_CT_Validate 0.874733 0.00501 0.863333 0.883333

Bảng 6. 4:Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học và trên dữ liệu kiêm chứng qua 50lần chạy thử với số cây trong RF=150

Hình 6. 2: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học (trái) và trên dữ liệu kiểm chứng ( phải) qua 50lần chạy thử với số cây trong RF=150

Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất

Thời gian (phút) 0.70 0.30 0.53 2.44

Bảng 6. 5: Mức tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Madelon qua 50 lần chạy thử với số cây trong RF=150

Chương 6: Kết quả thực nghiệm Trang 61

Số cây trong RF=200

Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất

RF_Training 0.693 0.008517 0.676 0.7135 RF_Validate 0.724967 0.013229 0.686667 0.748333 RF_CT_Training 0.86082 0.004473 0.8465 0.8685 RF_CT_Validate 0.877 0.006154 0.861667 0.89

Bảng 6. 6:Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học và trên dữ liệu kiêm chứng qua 50lần chạy thử với số cây trong RF=200

Hình 6. 3: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học (trái) và trên dữ liệu kiểm chứng ( phải) qua 50lần chạy thử với số cây trong RF=200

Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất

Thời gian (phút) 6.595563 0.867319 6.162167 10.52317

Bảng 6. 7: Mức tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Madelon qua 50 lần chạy thử với số cây trong RF=200

Chương 6: Kết quả thực nghiệm Trang 62

Số cây trong RF=250

Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất

RF_Training 0.69666 0.008241 0.6775 0.713 RF_Validate 0.731067 0.012785 0.703333 0.758333 RF_CT_Training 0.86286 0.00361 0.8535 0.87 RF_CT_Validate 0.875533 0.006084 0.86 0.888333

Bảng 6. 8: Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học và trên dữ liệu kiêm chứng qua 50lần chạy thử với số cây trong RF=250

Hình 6. 4: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học (trái) và trên dữ liệu kiểm chứng ( phải) qua 50 lần chạy thử với số cây trong RF=250

Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất

Thời gian (phút) 1.20 0.93 0.80 6.19

Bảng 6. 9: Mức tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Madelon qua 50 lần chạy thử với số cây trong RF=250

Chương 6: Kết quả thực nghiệm Trang 63

Một phần của tài liệu Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp Random Forest (Trang 59)

Tải bản đầy đủ (PDF)

(75 trang)