Cơ sở và định nghĩa

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới (Trang 37 - 38)

7. Bố cục luận văn

1.5.1. Cơ sở và định nghĩa

Từ những năm 1990, cộng đồng máy học đã nghiên cứu cách để kết hợp nhiều mô hình phân loại thành tập hợp các mô hình phân loại để cho tính chính xác cao hơn so với chỉ một mô hình phân loại. Mục đích của các mô hình tập hợp là làm giảm variance và hoặc bias của các giải thuật học. Bias là khái niệm về lỗi của mô hình học (không liên quan đến dữ liệu học) và variance là lỗi do tính biến thiên của mô hình so với tính ng u nhiên của các m u dữ liệu học. Tiếp cận Random Forest (Breiman, 2001) là một trong những phƣơng pháp tập hợp mô hình thành công nhất. Giải thuật Random Forest xây dựng cây không cắt nhánh nh m giữ cho bias thấp và dùng tính ng u nhiên để điều khiển tính tƣơng quan thấp giữa các cây trong rừng.

Sự phát triển sớm của Random Forest đã bị ảnh hƣởng bởi công việc của Amit và Geman, đã giới thiệu ý tƣởng về tìm kiếm trên một tập hợp con ng u nhiên trong những quyết định có sẵn khi tách một nút, trong bối cảnh phát triển cây duy nhất. Ý tƣởng lựa chọn ng u nhiên từ không gian con của ho cũng đã có ảnh hƣởng trong việc thiết kế các khu rừng ng u nhiên. Trong phƣơng pháp này một rừng cây đƣợc trồng, và sự thay đổi giữa các cây đƣợc giới thiệu b ng cách chiếu các dữ liệu đào tạo thành một không gian con đƣợc lựa chọn ng u nhiên trƣớc khi lắp mỗi cây. Cuối cùng, ý tƣởng ng u nhiên tối ƣu hóa nút, nơi các quyết định tại mỗi nút đƣợc chọn theo một quy trình ng u nhiên, chứ không phải là tối ƣu hóa xác định lần đầu tiên đƣợc giới thiệu bởi Dietterich[12].

Random Forest đƣợc xây dựng dựa trên 3 thành phần chính là: (1) CART, (2) học toàn bộ, hội đồng các chuyên gia, kết hợp các mô hình, và (3) tổng hợp bootstrap.

Random Forest là một phương pháp học quần thể để phân loại, hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số các cây quyết định trong thời gian đào tạo và đầu ra của lớp là mô hình phân lớp hoặc hồi quy của những cây riêng biệt. Nó như là một nhóm phân loại và hồi quy cây không cắt tỉa được làm từ các lựa chọn ngẫu nhiên của các mẫu dữ liệu huấn luyện. Tính năng ngẫu nhiên được chọn trong quá trình cảm ứng. Dự đoán được thực hiện bằng cách kết hợp (đa số phiếu để phân loại hoặc trung bình cho hồi quy) dự đoán của quần thể.

Một phần của tài liệu Ứng dụng khai phá dữ liệu để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới (Trang 37 - 38)