Hinh 2. 13. Tăng độ chính xác classifier
Trong mục trước, ta đã nghiên cứu các phương pháp đánh giá độ chính xác classifier. Trong mục 2.3.2 ta đã thấy cắt tỉa cĩ thể được áp dụng vào cây quyết định để giúp cải thiện
độ chính xác của kết quả các cây quyết định. Bagging (hay boostrap aggregation) và boosting là hai kỹ thuật (như hình 2.15). Mỗi khi kết hợp một loạt T classifier đã học
𝐶1, 𝐶2,..., 𝐶𝑇 sẽ tạo ra một classifier hỗn hợp được cải tiến 𝐶∗.
"Các phương pháp này làm việc như thế nào?" Giả sử rằng bạn là một bệnh nhân và bạn cần cĩ một chẩn đốn được làm dựa trên các triệu chứng của bạn. Thay vì hỏi bác sỹ, bạn cĩ thể tự lựa chọn. Nếu một chẩn đốn nào đĩ chuẩn hơn những cái khác, bạn sẽ lựa chọn là chẩn đốn cuối cùng hay chẩn đốn tốt nhất. Bây giờ thay thế mỗi bác sỹ bằng một classifier và bạn cĩ khả năng trực giác đằng sau bagging. Bạn ấn định các trọng số bằng giá trị hay "trị giá" mỗi chẩn đốn của bác sỹ dựa trên độ chính xác của các chẩn đốn trước đĩ chúng đã làm. Chẩn đốn cuối cùng là sự kết hợp của các chẩn đốn cĩ trọng số. Đây là bản chất của boosting. Ta sẽ cĩ một cái nhìn gần hơn ở 2 kỹ thuật này:
Cho trước một tập S cĩ s mẫu, bagging làm việc như sau. Tại lần lặp t (t = 1,2,...,T), một tập huấn luyện St được lấy mẫu, thay thế tập các mẫu gốc S. Từ khi sử dụng việc lấy mẫu với thay thế, một vài trong số các mẫu của S cĩ thể khơng cĩ mặt trong 𝑆𝑡, trong khi các mẫu khác cĩ thể xuất hiện nhiều hơn một lần. Một classifier 𝐶𝑡 được học cho mỗi tập huấn luyện 𝑆𝑡. Để phân loại một mẫu khơng biết X, mỗi classifier 𝐶𝑡 phải trả lại dự đốn lớp cho nĩ, nĩ đếm như một phiếu bầu. Classifier thu được 𝐶∗ đếm các phiếu bầu và các ấn định lớp với số phiếu bầu nhiều nhất cho X. Bagging cĩ thể được áp dụng để dự đốn các giá trị liên tục bằng cách lấy giá trị trung bình của các phiếu bầu, hơn là lấy theo số đơng giá trị.
Trong boosting, các trọng số được ấn định cho từng mẫu huấn luyện. Một loạt các classifier được học. Sau khi một classifier Ct được học, các trọng số được cập nhật để cho phép classifier tiếp theo 𝐶𝑡+1 "chú ý nhiều hơn" tới các sai số phân lớp sai đã cĩ với 𝐶𝑡. Classifier đã boost cuối cùng 𝐶∗ kết hợp các phiếu bầu của mỗi classifier riêng lẻ, tại đĩ trọng số của mỗi p hiếu bầu của classifier cĩ chức năng là độ chính xác của nĩ. Giải thuật boosting cĩ thể được mở rộng để dự đốn các giá trị liên tục.