7 Tổng kết
2.9 Minh họa Random Forest
2. Thiết lập cây quyết định cho từng mẫu và nhận kết quả dự đoán từ mỗi quyết định cây.
3. Bỏ phiếu cho mỗi kết quả dự đoán.
4. Chọn kết quả được dự đoán nhiều nhất là dự đoán cuối cùng.
Các cây quyết định rất nhạy cảm với dữ liệu mà chúng được huấn luyện - những thay đổi nhỏ đối với tập huấn luyện có thể dẫn đến các cấu trúc cây khác nhau đáng kể. Random Forest tận dụng lợi thế này bằng cách cho phép các cây riêng lẻ lấy mẫu ngẫu nhiên từ tập dữ liệu với sự thay thế, dẫn đến việc tạo ra các cây quyết định khác nhau. Quá trình này được gọi là đóng gói (bagging). Thông thường, đối với cây quyết định, khi phân tách một nút, ta cần xem xét mọi đặc trưng có thể có và chọn đặc trưng có lợi nhất cho quá trình phân chia. Ngược lại, mỗi cây trong Random Forest chỉ có thể chọn từ một tập ngẫu nhiên các đặc trưng. Điều này tạo ra sự khác biệt nhiều hơn giữa các cây trong mô hình và cuối cùng dẫn đến sự tương quan giữa các cây thấp hơn và đa dạng hơn. Mặc dù khắc phục được nhược điểm của cây quyết định đối với vấn đề overfitting, cấu trúc của mô hình Random Forest sẽ phức tạp hơn và quá trình dự đoán cũng tiêu tốn nhiều thời gian hơn. Lí do là bất cứ khi nào nó đưa ra dự đoán, tất cả các cây trong đó đều phải đưa ra dự đoán cho cùng một đầu vào cho trước và thực hiện bỏ phiếu trên đó.
2.3.3 Support Vector Machine
Support Vector Machine (SVM) là một mô hình học máy có giám sát được sử dụng chủ yếu cho bài toán phân loại. Trong thuật toán SVM, mỗi đối tượng dữ liệu được mô phỏng dưới dạng một điểm trong không gian n chiều (với n là một số đặc trưng của đối tượng) với giá trị của mỗi đối tượng là giá trị của một tọa độ cụ thể. Sau đó, mô hình thực hiện phân loại bằng cách tìm siêu phẳng (hyper-plane) có thể phân biệt tốt nhất các điểm dữ
Chương 2
liệu thuộc lớp khác nhau. Câu hỏi đặt ra là làm cách nào để xác định siêu phẳng tốt nhất ? Đối với SVM, điều kiện cần xem xét là khả năng tối đa hóa khoảng cách từ cả hai lớp. Nói cách khác: siêu phẳng này phải có khoảng cách đến phần tử gần nhất của mỗi lớp là lớn nhất. (Minh họa Hình 2.10)