4. Các giải thuật về máy học [16-17, 21-23]
4.4. Giải thuật Random forest (RF)
Rừng ngẫu nhiên là một thuật tốn học cĩ giám sát sử dụng một tập hợp của các cây quyết định, trong đĩ mỗi cây được chọn ngẫu nhiện dựa theo thuật tốn. Rừng ngẫu nhiên hoạt động bằng cách đánh giá nhiều cây quyết định ngẫu nhiên và chọn ra cây quyết định cĩ kết quả được đánh giá tốt nhất trong số cây quyết định trả về. Điểm mạnh của rừng ngẫu nhiên là cĩ thể sử dụng cho cả bài tốn phân loại và hồi qui, làm
việc được với tập dữ liệu khơng đầy đủ, và cĩ thể tránh được việc huấn luyện quá mức.
Quá trình phát triển cây quyết định sử dụng các thuộc tính của tập dữ liệu đầu vào. Giá trị thuộc tính cĩ thể là liệt kê hoặc liên tục. Quá trình này sử dụng các luật chia entropy để chọn sự phân chia tốt nhất giữa tất cả các khả năng phân chia của mỗi thuộc tính. Kết quả của sự phân chia này là 2 tập con thuộc tính. Mỗi sự phân chia phụ thuộc vào giá trị của chỉ 1 thuộc tính. Quá trình này bắt đầu với nút gốc của cây và lặp theo 3 bước đối với mỗi nút để phát triển cây như hình 15 bên trái.
Hình 15: Quá trình phát triển cây (bên trái) và rừng ngẫu nhiên (bên phải)
Bước đầu tiên là tìm sự phân chia tốt nhất cho mỗi thuộc tính. Do giá trị thuộc tính cĩ thể được tính tốn và sắp xếp để kiểm tra các khả năng phân chia, sự phân chia tốt nhất cực đại các tiêu chí cho trước. Bước thứ hai là tìm sự phân chia tốt nhất của nút trong số các khả năng phân chia trong bước thứ nhất. Sự phân chia tốt nhất cũng cực đại các tiêu chí cho trước. Bước thứ ba phân chia nút sử dụng sự phân chia tốt nhất tìm thấy trong bước thứ hai. Quá trình này lặp lại cho đến khi các luật ngừng thỏa mãn và tạo ra 1 cây quyết định.
Quá trình phát triển cây quyết định là một trong các bước quan trọng trong quá trình phát triển rừng ngẫu nhiên như hình 15 bên phải. Tập dữ liệu đầu vào được chia ngẫu nhiên thành tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Tập huấn luyện được dùng để phát triển thành cây quyết định. Tập kiểm tra được dùng để đánh giá và chọn lựa cây quyết định nếu cĩ kết quả đạt ngưỡng cho trước. Quá trình này lặp lại cho đến
khi lựa chọn được một số cây quyết định đạt yêu cầu. Kiến thức nền tảng này tham khảo từ tài liệu [8, 9].