Phương pháp này được xem như là một phương pháp tổng hợp kết quả có được từ các bootstrap. Tư tưởng chính của phương pháp này như sau: Cho một tập huấn luyện D={(xi, yi): i=1,2,…,n} và giả sử chúng ta muốn có một một dự đoán nào đó đối với biến x.
Một mẫu gồm B tập dữ liệu, mỗi tập dữ liệu gồm n phần tử được chọn lựa ngẫu nhiên từ D với sự thay thế (giống như bootstrap). Do đó, B=(D1, D2, ….,DB) trông giống như là một tập các tập huấn luyện được nhân bản;
Tập huấn một máy hoặc một mô hình đối với mỗi tập Db (b=1, 2, …,B) và lần lượt thu thập các kết quả dự báo có được trên mỗi tập Db;
Kết quả tổng hợp cuối cùng được tính toán bằng cách trung bình hóa (regression) hoặc thông qua số phiếu bầu nhiều nhất (classification).
Dưới đây là thể hiện chi tiết của phương pháp bagging Xây dựng B boostrap của L ký kiệu: L1, L2, ….,LB;
Áp dụng giải thuật học cho mỗi Lb (b=1:B) để có tính toán dự đoán hb
Gọi Tb = L\Lb là các điểm dữ liệu không xuất hiện trong Lb (out of bag points) Đối với mỗi điểm dữ liệu , chúng ta sẽ quan sát giá trị y tương ứng và tính
toán một vài dự đoán 1( , 2( , …, K( . Tính toán trung bình dự đoán ( .
Chương 4: Giải thuật Random Forest Trang 42
Ước lượng sai lệch (bias) và phương sai (variance)
o Bias = y - (
o Variance=
Một cách trực quan chúng ta thấy rằng phương pháp bagging có thể làm giảm độ sai lệch (phương sai):
Nếu mỗi bộ phân lớp đơn lẻ không ổn định thì điều đó có nghĩa là bộ phân lớp đó có phương sai lớn, một phân lớp tổng hợp sẽ có phương sai nhỏ hơn so với một phân lớp đơn lẻ.
Một phân lớp tổng hợp có thể xem như một xấp xỉ tới giá trị trung bình thực sự của f có được bằng cách thay đổi các phân bổ xác suất p với các bootstrap.
Bagging làm việc tốt với các giải thuật học không ổn định (neutral networks, Decision trees và Regression trees, Subset selection in logistic/linear Regression). Tuy nhiên bagging cũng có thể làm giảm độ chính xác của các giải thuật học ổn định (K- nearest neighbors) (do sự thay đổi trong dữ liệu của tập huấn luyện).