Nguồn ảnh: http://bytepawn.com/svm-with-pytorch.html
Tập dữ liệu huấn luyện này có thể đƣợc phân tách bằng một siêu phẳng nếu tồn tại một vector w = (w1, BR, wk) và một vô hƣớng b thỏa mãn bất đẳng thức sau:
(w + b) -1 + ≥ 0 ∀y = {+1, -1}
ξi là một biến cho biết khoảng cách mẫu dữ liệu từ siêu phẳng tối ƣu
(5)
Hàm mục tiêu có thể đƣợc viết nhƣ sau:
C là hằng số đƣợc sử dụng để kiểm soát mức độ phạt liên quan đến các mẫu huấn luyện xảy ra ở phía sai của siêu phẳng tách tối ƣu. C nên đƣợc xem xét chặt chẽ cho từng nhiệm vụ phân loại cá nhân.
2.1.2. XGBoost
eXtreme Gradient Boosting (XGBoost) là một phƣơng pháp phân lớp mới đƣợc giới thiệu bởi Tianqui Chen [21][22]. XGBoost thể hiện là một công cụ mạnh trong nhiều lĩnh vực phân lớp. Phƣơng pháp phân lớp này đƣợc chứng minh rằng rất mạnh mẽ trong cuộc thi Kaggle. Nó là một phiên bản đƣợc tinh chỉnh của Gradient Boosting Machines (GBM). Trong Gradient Boosting, các cây đƣợc xây dựng liên tiếp nhau và mỗi mô hình mới sử dụng thuật toán Gradient Descent. Ý tƣởng chính của thuật toán là thay vì xây dựng một mô hình dự đoán có độ chính xác tƣơng đối, ta đi xây dựng nhiều mô hình dự đoán có độ chính xác kém hơn khi đi riêng lẻ nhƣng lại cho độ chính xác cao khi kết hợp lại. Mô hình cuối cùng là kết quả của sự tăng thêm của nhiều hàm khác nhau từ khi bắt đầu. Trong XGBoost, các cây có thể đƣợc xây dựng song song. Nó cũng có mô hình bên trong để xử lý dữ liệu đầu vào thƣa. Do đó nó có thể làm việc tốt trong nhiều trƣờng hợp mà dữ liệu ảnh bị thiếu do mây. Nguyên lý chính khác biệt giữa các phƣơng pháp tăng cƣờng và các phƣơng pháp thông thƣờng khác đó là sự tối ƣu hóa đƣợc tổ chức dựa trên các hàm của các phƣơng thức cũ.