7. Bố cục luận văn
1.5.1. Cơ sở và định nghĩa
Từ những năm 1990, cộng đồng máy học đã nghiên cứu cách để kết hợp nhiều mô hình phân loại thành tập hợp các mô hình phân loại để cho tính chính xác cao hơn so với chỉ một mô hình phân loại. Mục đích của các mô hình tập hợp là làm giảm variance và hoặc bias của các giải thuật học. Bias là khái niệm về lỗi của mô hình học (không liên quan đến dữ liệu học) và variance là lỗi do tính biến thiên của mô hình so với tính ngẫu nhiên của các mẫu dữ liệu học. Tiếp cận Random Forest (Breiman, 2001) là một trong những phương pháp tập hợp mô hình thành công nhất. Giải thuật Random Forest xây dựng cây không cắt nhánh nhằm giữ cho bias thấp và dùng tính ngẫu nhiên để điều khiển tính tương quan thấp giữa các cây trong rừng.
Sự phát triển sớm của Random Forest đã bị ảnh hưởng bởi công việc của Amit và Geman, đã giới thiệu ý tưởng về tìm kiếm trên một tập hợp con ngẫu nhiên trong những quyết định có sẵn khi tách một nút, trong bối cảnh phát triển cây duy nhất. Ý tưởng lựa chọn ngẫu nhiên từ không gian con của Amit và Geman cũng đã có ảnh hưởng trong việc thiết kế các khu rừng ngẫu nhiên. Trong phương pháp này một rừng cây được trồng, và sự thay đổi giữa các cây được giới thiệu bằng cách chiếu các dữ liệu đào tạo thành một không gian con được lựa chọn ngẫu nhiên trước khi lắp mỗi
cây. Cuối cùng, ý tưởng ngẫu nhiên tối ưu hóa nút, nơi các quyết định tại mỗi nút được chọn theo một quy trình ngẫu nhiên, chứ không phải là tối ưu hóa xác định lần đầu tiên được giới thiệu bởi Dietterich.
Random Forest được xây dựng dựa trên 3 thành phần chính là: (1) CART, (2) học toàn bộ, hội đồng các chuyên gia, kết hợp các mô hình, và (3) tổng hợp bootstrap.
Random Forest là một phương pháp học quần thể để phân loại, hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số các cây quyết định trong thời gian đào tạo và đầu ra của lớp là mô hình phân lớp hoặc hồi quy của những cây riêng biệt.
Nó như là một nhóm phân loại và hồi quy cây không cắt tỉa được làm từ các lựa chọn ngẫu nhiên của các mẫu dữ liệu huấn luyện. Tính năng ngẫu nhiên được chọn trong quá trình cảm ứng. Dự đoán được thực hiện bằng cách kết hợp (đa số phiếu để phân loại hoặc trung bình cho hồi quy) dự đoán của quần thể.