7. Bố cục luận văn
1.4.1. Rừng ngẫu nhiên (Random Forest)
Random Forest là một phương pháp học quần thể để phân loại, hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số các quyết định trong thời gian đào tạo và đầu ra của lớp là mô hình phân lớp hoặc hồi quy của những cây riêng biệt. Nó như là một nhóm phân loại và hồi quy cây không cắt tỉa được làm từ các lựa chọn ngẫu nhiên của các mẫu dữ liệu huấn luyện. Tính năng ngẫu nhiên được chọn trong quá trình cảm ứng. Dự đoán được thực hiện bằng cách kết hợp (đa số
phiếu để phân loại hoặc trung bình cho hồi quy) dự đoán của quần thể.
Hay nói cách khác: Random Forest là phương pháp huấn luyện quần thể dựa trên ý tưởng tạo cây không cắt tỉa và tổng hợp các cây từ các bootstrap được tạo ra ngẫu nhiên và có hoàn lại. Dữ liệu mục tiêu nếu là biến liên tục thì kết quả dự đoán lấy trung bình công các kết quả dự đoán (Classification). Random Forest được đánh giá là một phương pháp học hiệu quả, có khả năng lựa chọn các đặc trưng và loại bỏ giá trị dư thừa, giá trị bất thường. Đặc biệt với dữ liệu lớn nhưng số mẫu nhỏ, Random Forest có khả năng huấn luyện song song và là một phương pháp kiểm thử nhanh. Gần đây, các ứng dụng của Random Forest đã được chứng minh trong lĩnh vực khai phá dữ liệu và máy thị giác.
Random Forest được xây dựng dựa trên 3 thành phần chính là: (1) CART, (2) học toàn bộ, hội đồng các chuyên gia, kết hợp các mô hình, và (3) tổng hợp bootstrap.
Bên cạnh những thành công lớn của phương pháp này, cũng có một số quan điểm trái chiều về nghiên cứu lý thuyết và nghiên cứu thực nghiệm của phương pháp. Về mặt lý thuyết, các phương pháp chứng minh bằng thực nghiệm không đủ tối ưu khi huấn luyện, mỗi cây có thể học độc lập không phụ thuộc vào các cây trong rừng. Như vậy khi học sẽ không tận dụng được khả năng bổ sung thông tin giữa các cây khác nhau.
Thuật toán Random Forest (RF)
Function RF (input: E, Output: Random Forest)
Begin
1. Tạo cây con S: Lấy ngẫu nhiên có hoàn lại |E| từ mẫu tập huấn luyện E 2. Xây dựng cây quyết định (Decision Tree – DT) từ tập con S.
3. Lặp lại bước 1 và bước 2 cho tới khi tất cả cây quyết định (DT) được xây dựng.
End.