CHƢƠNG 2 : THUẬT TOÁN RANDOM FOREST VÀ GIẢI THUẬT DI TRUYỀN
2.2 Phƣơng pháp Bootstrap và Bagging
2.2.1 Phƣơng pháp Bootstrap [29]
Là một phƣơng pháp rất nổi tiếng trong thống kê đƣợc giới thiệu bởi Bradley Efron vào năm 1979. Phƣơng pháp này chủ yếu dùng để ƣớc lƣợng lỗi chuẩn (standard errors), độ lệch (bias) và tính toán khoảng tin cậy (confidence interval) cho các tham số. Phƣơng pháp này đƣợc thực hiện nhƣ sau: Từ một quần thể ban đầu lấy ra một mẫu L = (x1, x2,..xn) gồm n thành phần, tính toán các tham số mong muốn. Trong các bƣớc tiếp theo lặp lại b lần việc tạo ra mẫu Lb cũng gồm n phần từ từ L bằng cách lấy lại mẫu với sự thay thế các thành phần trong mẫu ban đầu sau đó tính toán các tham số mong muốn. Hình 2.2.1[29] dƣới đây thể hiện một ví dụ sử dụng phƣơng pháp bootstrap trong việc tính toán giá trị trung bình.
Hình 2.2.1 Ví dụ về phương pháp bootstrap[29]
2.2.2. Phƣơng pháp Bagging [29]
luyện D={(xi, yi): i=1,2,…,n} và giả sử chúng ta muốn có một một dự đoán nào đó đối với biến x.
Một mẫu gồm B tập dữ liệu, mỗi tập dữ liệu gồm n phần tử đƣợc chọn lựa ngẫu nhiên từ D với sự thay thế (giống nhƣ bootstrap). Do đó B=(D1, D2, ….,DB) trông giống nhƣ là một tập các tập huấn luyện đƣợc nhân bản;
Tập huấn một máy hoặc một mô hình đối với mỗi tập Db (b=1, 2, …,B) và lần lƣợt thu thập các kết quả dự báo có đƣợc trên mỗi tập Db;
Kết quả tổng hợp cuối cùng đƣợc tính toán bằng cách trung bình hóa (regression) hoặc thông qua số phiếu bầu nhiều nhất.
Dƣới đây là thể hiện chi tiết của phƣơng pháp bagging Xây dựng B boostrap của L ký kiệu: L1, L2, ….,LB;
Áp dụng giải thuật học cho mỗi Lb (b=1:B) để có tính toán dự đoán hb
Gọi Tb = L\Lb là các điểm dữ liệu không xuất hiện trong Lb (out of bag points)
Đối với mỗi điểm dữ liệu x, chúng ta sẽ quan sát giá trị y tƣơng ứng và tính toán các dự đoán 𝑦 (𝑥)1 , 𝑦 (𝑥)2 ,…, 𝑦 (𝑥)𝑘
Tính toán trung bình dự đoán ℎ(𝑥) .
Ƣớc lƣợng sai lệch (bias) và phƣơng sai (variance) o Bias = y -ℎ(𝑥) (1)
o Variance= 𝑦𝑘 (𝑥) − ℎ(𝑥)𝑘 2
1 (2)
Một cách trực quan chúng ta thấy rằng phƣơng pháp bagging có thể làm giảm độ sai lệch (phƣơng sai):
Nếu mỗi bộ phân lớp đơn lẻ không ổn định thì điều đó có nghĩa là bộ phân lớp đó có phƣơng sai lớn, một phân lớp tổng hợp sẽ có phƣơng sai nhỏ hơn so với một phân lớp đơn lẻ.
Một phân lớp tổng hợp có thể xem nhƣ một xấp xỉ tới giá trị trung bình thực sự của f có đƣợc bằng cách thay đổi các phân bổ xác suất p với các bootstrap.
Bagging làm việc tốt với các giải thuật học không ổn định (neutral networks, Decision trees và Regression trees, Subset selection in logistic/linear Regression). Tuy nhiên bagging cũng có thể làm giảm độ chính xác của các giải thuật học ổn định (K-nearest neighbors) (do sự thay đổi trong dữ liệu của tập huấn luyện).