Học Kết hợp (Ensemble Learning)

Một phần của tài liệu Đề tài phân tích phần tử ngoại lai (Trang 27 - 30)

Không có thuật toán nào là luôn tốt và cho hiệu suất cao nhất cho mọi ứng dụng và trên mọi tập dữ liệu, vì các thuật toán học khác nhau thường dựa trên một tập các tham số nào đó (hyperparameter) hoặc dựa trên một giả thiết nào đó về phân bố dữ liệu. Vì vậy để tìm được những thuật toán máy học tốt cho tập dataset của mình có thể cần nhiều thời gian để thử các thuật toán khác nhau.

Sau khi mà các bạn đã có danh sách một số mô hình chính xác, các bạn có thể sử hiệu chỉnh (tuning) thuật toán để thu được độ chính xác cao nhất cho từng thuật toán.

Một cách khác có thể sử dụng để tăng độ chính xác trên tập dataset của bạn là kết hợp (combine) một số mô hình với nhau. Phương pháp này gọi là esemble learning.

Ý tưởng của việc kết hợp các mô hình khác nhau xuất phát từ một suy nghĩ hợp lý là: các mô hình khác nhau có khả năng khác nhau, có thể thực hiện tốt nhất các loại công việc khác nhau (subtasks), khi kết hợp các mô hình này với nhau một cách hợp lý thì sẽ tạo thành một mô hình kết hợp (combined model) mạnh và cải thiện hiệu suất tổng thể hơn so với việc chỉ dùng các mô hình một cách đơn lẻ. Ít lỗi hơn ,tránh việc bị quá mức giảm thiểu sự thiên vị của các phương pháp và lỗi biến

* Các thuật toán mà học kết hợp thường sử dụng

1. Bagging(BootstrapAGGregatING )

Bao đóng được sử dụng khi mục tiêu là giảm phương sai của trình phân loại cây quyết định. Ở đây, mục tiêu là tạo ra một số tập hợp dữ liệu từ mẫu đào tạo được chọn ngẫu nhiên với sự thay thế. Mỗi tập hợp dữ liệu tập hợp con được sử dụng để huấn luyện cây quyết định của chúng. Kết quả là, chúng tôi nhận được một nhóm gồm các mô hình khác nhau. Trung bình của tất cả các dự đoán từ các cây khác nhau được sử dụng mạnh hơn một trình phân loại cây quyết định duy nhất.

Các bước đóng bao:

Giả sử có N quan sát và M đặc điểm trong tập dữ liệu huấn luyện. Một mẫu từ tập dữ liệu huấn luyện được lấy ngẫu nhiên với sự thay thế.

Một tập hợp con của M đặc điểm được chọn ngẫu nhiên và bất kỳ tính năng nào phân chia tốt nhất được sử dụng để phân chia nút lặp. Cây được phát triển lớn nhất. Các bước trên được lặp lại n lần và dự đoán được đưa

Giảm sự quá mức của mô hình. Xử lý dữ liệu nhiều chiều rất tốt.

Duy trì độ chính xác cho dữ liệu bị thiếu.

Nhược điểm: Do dự đoán cuối cùng dựa trên dự đoán trung bình từ các cây con, nên không đưa ra các giá trị chính xác cho mô hình phân loại và hồi quy.

2. Boosting

Phương pháp boosting được sử dụng để tạo ra một bộ sưu tập các dự đoán. Trong kỹ thuật này, người học được học tuần tự với những máy học sớm phù hợp với các mô hình đơn giản với dữ liệu và sau đó phân tích dữ liệu cho các lỗi. Cây liên tiếp (mẫu ngẫu nhiên) là phù hợp và ở mỗi bước, mục tiêu là cải thiện độ chính xác từ cây trước. Khi một đầu vào bị phân loại sai bởi một giả thuyết, trọng lượng của nó được tăng lên để giả thuyết tiếp theo có nhiều khả năng phân loại chính xác. Quá trình này chuyển đổi những máy học yếu thành mô hình hoạt động tốt hơn.

Lấy một tập hợp con ngẫu nhiên của các mẫu đào tạo d1 mà không thay thế từ tập huấn luyện D để đào tạo một máy học yếu C1

Vẽ tập con đào tạo ngẫu nhiên thứ hai d2 mà không thay thế từ tập huấn luyện và thêm 50 phần trăm các mẫu trước đây được phân loại sai / phân loại sai để đào tạo một máy học yếu C2

Tìm các mẫu đào tạo d3 trong tập huấn luyện D mà C1 và C2 không đồng ý đào tạo máy học yếu thứ ba C3

Kết hợp tất cả những máy học yếu thông qua bỏ phiếu đa số. Ưu điểm:

Hoạt động tốt với các tương tác.

Nhược điểm:

Dễ dàng phù hợp quá mức

Sử dụng học kết hợp trong việc xác định phần tử ngoại lai dùng các phương pháp đã có (ví dụ như KNN , hồi quy tuyến tính, cây quyết định, SVM,….) để xác định chúng.

Đối với mỗi mô hình tính toán sẽ cho ra một kết quả, ta xem xét kết quả và bắt đầu biểu quyết .

Việc làm này giảm thiểu lỗi nhiều hơn khi chỉ sử dụng một phương pháp để xác định.

Một phần của tài liệu Đề tài phân tích phần tử ngoại lai (Trang 27 - 30)

Tải bản đầy đủ (DOCX)

(30 trang)
w