Phƣơng pháp Bagging [29]

Một phần của tài liệu Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều (Trang 30 - 31)

Phƣơng pháp này đƣợc xem nhƣ là một phƣơng pháp tổng hợp kết quả có đƣợc từ các bootstrap. Tƣ tƣởng chính của phƣơng pháp này nhƣ sau: Cho một tập huấn

luyện D={(xi, yi): i=1,2,…,n} và giả sử chúng ta muốn có một một dự đoán nào đó đối với biến x.

Một mẫu gồm B tập dữ liệu, mỗi tập dữ liệu gồm n phần tử đƣợc chọn lựa ngẫu nhiên từ D với sự thay thế (giống nhƣ bootstrap). Do đó B=(D1, D2, ….,DB) trông giống nhƣ là một tập các tập huấn luyện đƣợc nhân bản;

Tập huấn một máy hoặc một mô hình đối với mỗi tập Db (b=1, 2, …,B) và lần lƣợt thu thập các kết quả dự báo có đƣợc trên mỗi tập Db;

Kết quả tổng hợp cuối cùng đƣợc tính toán bằng cách trung bình hóa (regression) hoặc thông qua số phiếu bầu nhiều nhất.

Dƣới đây là thể hiện chi tiết của phƣơng pháp bagging Xây dựng B boostrap của L ký kiệu: L1, L2, ….,LB;

Áp dụng giải thuật học cho mỗi Lb (b=1:B) để có tính toán dự đoán hb

Gọi Tb = L\Lb là các điểm dữ liệu không xuất hiện trong Lb (out of bag points)

Đối với mỗi điểm dữ liệu x, chúng ta sẽ quan sát giá trị y tƣơng ứng và tính toán các dự đoán 𝑦 (𝑥)1 , 𝑦 (𝑥)2 ,…, 𝑦 (𝑥)𝑘

Tính toán trung bình dự đoán ℎ(𝑥) .

Ƣớc lƣợng sai lệch (bias) và phƣơng sai (variance) o Bias = y -ℎ(𝑥) (1)

o Variance= 𝑦𝑘 (𝑥) − ℎ(𝑥)𝑘 2

1 (2)

Một cách trực quan chúng ta thấy rằng phƣơng pháp bagging có thể làm giảm độ sai lệch (phƣơng sai):

Nếu mỗi bộ phân lớp đơn lẻ không ổn định thì điều đó có nghĩa là bộ phân lớp đó có phƣơng sai lớn, một phân lớp tổng hợp sẽ có phƣơng sai nhỏ hơn so với một phân lớp đơn lẻ.

Một phân lớp tổng hợp có thể xem nhƣ một xấp xỉ tới giá trị trung bình thực sự của f có đƣợc bằng cách thay đổi các phân bổ xác suất p với các bootstrap.

Bagging làm việc tốt với các giải thuật học không ổn định (neutral networks, Decision trees và Regression trees, Subset selection in logistic/linear Regression). Tuy nhiên bagging cũng có thể làm giảm độ chính xác của các giải thuật học ổn định (K-nearest neighbors) (do sự thay đổi trong dữ liệu của tập huấn luyện).

Một phần của tài liệu Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều (Trang 30 - 31)