Random Forest (rừng ngẫu nhiên). Là một phương pháp phân lớp và hồi quy dựa trên việc kết hợp kết quả dự đốn của một số lượng lớn các cây quyết định. chúng ta cĩ thể liên tưởng tới việc bầu cử theo nguyên tắc phổ thơng đầu phiếu. Nếu sử dụng một cây quyết định chẳng khác nào việc bầu cử mà chỉ cĩ 1 người bỏ phiếu. Việc sinh các cây quyết định từ một mẫu dữ liệu nhằm đa dạng hố các “phiếu bầu” (giống như việc mọi thành phần, tầng lớp, giai cấp đều được đi bỏ phiếu) cho kết luận. Việc
áp dụng các kỹ thuật sinh ra các mẫu dữ liệu hay việc lựa chọn rẽ nhánh ngẫu nhiên sẽ tạo ra các cây “dị tật” trong rừng (giống việc cho phép cơng dân khơng cần phân biệt trình độ học vấn, sức khỏe... đi bầu cử). Càng nhiều loại hình, càng nhiều phiếu bầu sẽ cung cấp cho chúng ta cái nhìn đa chiều, chi tiết hơn và do đĩ kết luận sẽ cĩ tính chính xác, gần với thực tế hơn. Trong thực tế RF đã trở thành một cơng cụ tin cậy cho phân tích dữ liệu đặc biệt là dữ liệu tin sinh học.
Chọn thuật tốn Ramdomforest:
1) Nhấp vào nút “Choose” và chọn “Ramdomforest” trong nhĩm “Trees”. 2) Nhấp vào tên của thuật tốn để xem lại cấu hình thuật tốn.
3) Sau đĩ nhấn vào “Ok” đây để đĩng cấu hình thuật tốn.
4) Ta chọn thuộc tính phân lớp là “class”, chọn các Classifer tương ứng, sau đĩ bấm Start để tiến hành xây dựng mơ hình và đánh giá độ chính xác. Sau chạy thuật tốn trên bộ dữ liệu Iris. Cĩ thể thấy rằng với cấu hình mặc định, thuật tốn Ramdomforest đạt được độ chính xác 96%
Hình 3. 9: Kết quả phân lớp dữ liệu cho thuật tốn Ramdomforest Tập luyện tập 66% (Tập kiểm chứng 34%)
Kết quả:
- Tỷ lệ phân lớp đúng là 96.0784% (49 mẫu)
Hình 3. 10:Kết quả phân lớp dữ liệu cho thuật tốn Ramdomforest chia tập dữ liệu thành 10 phần (chọn fold=10)
Kết quả:
- Tỷ lệ phân lớp đúng là 95.3333% (143 mẫu)
- Tỷ lệ phân lớp sai là 4.6667% (7 mẫu)