Qua những tìm hiểu trên về giải thuật RF ta cĩ nhận xét rằng RF là một phương pháp phân lớp tốt do: (1) Trong RF các sai số (variance) được giảm thiểu do kết quả của RF được tổng hợp thơng qua nhiều người học (learner), (2) Việc chọn ngẫu nhiên tại mỗi bước trong RF sẽ làm giảm mối tương quan (correlation) giữa các người học trong việc tổng hợp các kết quả.
Ngồi ra, chúng ta cũng thấy rằng lỗi chung của một rừng các cây phân lớp phụ thuộc vào lỗi riêng của từng cây trong rừng cũng như mỗi tương quan giữa các cây.
4.3. Một số điểm cần chú ý của giải thuật Random Forest 4.3.1. OOB 4.3.1. OOB
Nhắc lại ở trên khi tập mẫu được rút ra từ một tập huấn luyện của một cây với sự thay thế (bagging), thì theo ước tính cĩ khoảng 1/3 các phần từ khơng cĩ nằm trong mẫu này [7]. Điều này cĩ nghĩa là chỉ cĩ khoảng 2/3 các phần tử trong tập huấn luyện tham gia vào trong các tính tốn của chúng ta, và 1/3 các phần tử này được gọi là dữ liệu out-of-bag. Dữ liệu out-of-bag được sử dụng để ước lượng lỗi tạo ra từ việc kết
Chương 4: Giải thuật Random Forest Trang 45
hợp các kết quả từ các cây tổng hợp trong random forest cũng như dùng để ước tính độ quan trọng thuộc tính (variable important).
Trong random forest OBB được tính như sau: Giả sử cĩ một phương pháp cho việc xây dựng một bộ phân lớp từ bất kỳ tập huấn luyện nào. Cho một tập huấn luyện T ban đầu, sử dụng phương pháp bootstrap xây dựng được tập huấn luyện Tk, sau đĩ xây dựng các bộ phân lớp h(x, Tk) và sử dụng các bộ phân lớp này “bỏ phiếu” để xây dựng một tập tham số dự báo. Đối với mỗi cặp y, x trong tập huấn luyện, việc tổng hợp các lá phiếu chỉ được thực hiện trên những bộ phân lớp đối với những tập Tk khơng chứa y, x. Chúng ta gọi tính tốn trên là out-of-bag classifier. Sử dụng dữ liệu out-of-bag để ước tính tỷ lệ lỗi trong RF là việc tính tốn tỉ lệ lỗi của out-of-bag classifier trên tập huấn luyện Tk. Cách tính trên cĩ thể được hiểu một cách đơn giản như sau: Gửi các “đối tượng” trong OBB xuống cây và “đếm” số các dự đốn đúng, ta gọi kết quả của tính tốn này là ROOB .
Hình 4.4 dưới đây thể hiện sử dụng dữ liệu OOB để ước lượng lỗi trong RF.