Áp dụng kỹ thuật N-fold cross validation trên tập dữ liệu huấn luyện với N=2, tiến hành chạy giải thuật 50 lần với số lượng cây trong RF lần lượt là 100, 150, 200 và 250 chúng ta được các kết quả dưới đây.
Chương 6: Kết quả thực nghiệm Trang 59
Số cây trong RF=100
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
RF_Training 0.67084 0.012062 0.642 0.691 RF_Validate 0.712367 0.017894 0.665 0.765 RF_CT_Training 0.85237 0.005109 0.8375 0.8615 RF_CT_Validate 0.872867 0.005594 0.86 0.886667
Bảng 6. 2:Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học và trên dữ liệu kiêm chứng qua 50lần chạy thử với số cây trong RF=100
Hình 6. 1: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học (trái) và trên dữ liệu kiểm chứng ( phải) qua 50lần chạy thử với số cây trong RF=100
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
Thời gian (phút) 0.51 0.13 0.41 1.03
Bảng 6. 3: Mức tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Madelon qua 50 lần chạy thử với số cây trong RF=100
Chương 6: Kết quả thực nghiệm Trang 60
Số cây trong RF=150
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
RF_Training 0.68614 0.011303 0.663 0.709 RF_Validate 0.722567 0.012933 0.696667 0.758333 RF_CT_Training 0.85831 0.004418 0.8495 0.8675 RF_CT_Validate 0.874733 0.00501 0.863333 0.883333
Bảng 6. 4:Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học và trên dữ liệu kiêm chứng qua 50lần chạy thử với số cây trong RF=150
Hình 6. 2: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học (trái) và trên dữ liệu kiểm chứng ( phải) qua 50lần chạy thử với số cây trong RF=150
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
Thời gian (phút) 0.70 0.30 0.53 2.44
Bảng 6. 5: Mức tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Madelon qua 50 lần chạy thử với số cây trong RF=150
Chương 6: Kết quả thực nghiệm Trang 61
Số cây trong RF=200
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
RF_Training 0.693 0.008517 0.676 0.7135 RF_Validate 0.724967 0.013229 0.686667 0.748333 RF_CT_Training 0.86082 0.004473 0.8465 0.8685 RF_CT_Validate 0.877 0.006154 0.861667 0.89
Bảng 6. 6:Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học và trên dữ liệu kiêm chứng qua 50lần chạy thử với số cây trong RF=200
Hình 6. 3: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học (trái) và trên dữ liệu kiểm chứng ( phải) qua 50lần chạy thử với số cây trong RF=200
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
Thời gian (phút) 6.595563 0.867319 6.162167 10.52317
Bảng 6. 7: Mức tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Madelon qua 50 lần chạy thử với số cây trong RF=200
Chương 6: Kết quả thực nghiệm Trang 62
Số cây trong RF=250
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
RF_Training 0.69666 0.008241 0.6775 0.713 RF_Validate 0.731067 0.012785 0.703333 0.758333 RF_CT_Training 0.86286 0.00361 0.8535 0.87 RF_CT_Validate 0.875533 0.006084 0.86 0.888333
Bảng 6. 8: Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học và trên dữ liệu kiêm chứng qua 50lần chạy thử với số cây trong RF=250
Hình 6. 4: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học (trái) và trên dữ liệu kiểm chứng ( phải) qua 50 lần chạy thử với số cây trong RF=250
Trung bình Độ lệch chuẩn Giá trị nhỏ nhất Giá trị lớn nhất
Thời gian (phút) 1.20 0.93 0.80 6.19
Bảng 6. 9: Mức tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF trên dữ liệu Madelon qua 50 lần chạy thử với số cây trong RF=250
Chương 6: Kết quả thực nghiệm Trang 63