Chúng ta có thể mở rộng RVM cho bài toán phân loại, với mong muốn là dự đoán xác suất hậu nghiệm của các lớp khi cho trước dữ liệu đầu vào x. Mở đầu chúng ta bắt đầu với bài toán phân loại hai lớp 𝑦 ∈ {0, 1}. Mô hình tổng quát là kết hợp mô hình tuyến tính của hàm cơ sở với hàm logistic sigmoid (xem hồi quy logistic):
𝑦(𝑥, 𝑤) = 𝜎(𝑤𝑇𝜙(𝑥)) Với 𝜎(𝑎) là hàm logistic sigmoid và được định nghĩa:
𝜎(𝑎) = 1
1 + exp(−𝑎)
Xác suất 𝑝(𝑡|𝑥, 𝑤) có phân phối Bernoulli và hàm likelihood có dạng: 𝑝(𝒕|𝒙, 𝑤) = ∏ 𝑦(𝑥𝑖)𝑡𝑖[1 − 𝑦(𝑥𝑖)]1−𝑡𝑖
𝑁 𝑖=1
Xác suất tiên nghiệm 𝑝(𝑤|𝛼) theo công thức (2.2.2).
Theo suy luận Bayesian, xác suất hậu nghiệm của trọng số 𝑤: 𝑝(𝑤|𝑡, 𝛼) =𝑝(𝑡|𝑤)𝑝(𝑤|𝛼)
𝑝(𝑡|𝛼)
Chúng ta khởi tạo giá trị siêu tham số 𝛼. Với 𝛼 cho trước, ln 𝑝(𝑤|𝒕, 𝛼) = ln{𝑝(𝑡|𝑤)𝑝(𝑤|𝛼)} − ln 𝑝(𝑡|𝛼) = ∑{𝑡𝑛ln 𝑦𝑛+ (1 − 𝑡𝑛) ln(1 − 𝑦𝑛)} 𝑁 𝑖=1 −1 2𝑤 𝑇𝐴𝑤 + 𝑐𝑜𝑛𝑠𝑡
Với 𝐴 = 𝑑𝑖𝑎𝑔(𝛼𝑖). Chúng ta tính đạo hàm cấp một và cấp hai (ma trận Hessian) của log xác suất hậu nghiệm trọng số:
∇ ln(𝑤|𝒕, 𝛼) = 𝚽𝑇(𝒕 − 𝒚) − 𝑨𝑤 (2.2.7)
∇∇ ln(𝑤|𝒕, 𝛼) = −(𝚽𝑇𝐵𝚽 + A)
Trong đó: B là ma trận đường chéo cấp N có phần tử 𝑏𝑖 = 𝑦𝑛(1 − 𝑦𝑖), 𝚽 là ma trận các phần tử 𝚽𝑖𝑗 = 𝜙𝑗(𝑥𝑖). Cho (2.2.7) bằng không, ta thu được kết quả:
𝑤∗= 𝐴−1𝚽𝑇(𝒕 − 𝒚) Σ = (𝚽𝑇𝐵𝚽 + 𝐀)−1
Chúng ta có thể dùng xấp xỉ Laplace: 𝛼𝑖𝑛𝑒𝑤 = 𝛾𝑖
(𝑤∗)2
Với 𝛾𝑖 = 1 − 𝛼𝑖Σ𝑖𝑖.
𝑡̂ = 𝚽𝐰∗+ 𝐵−1(𝑡 − 𝑦)
Mở rộng đối với trường hợp bài toán phân lớp K > 2, với cách tiếp cận xác suất có K mô hình tuyến tính có dạng như sau:
𝑎𝐾 = 𝑤𝐾𝑇𝑥 Kết hợp sử dụng hàm softmax để cho ra kết quả:
𝑦𝐾(𝑥) = exp (𝑎𝐾) ∑ exp (𝑎𝑗 𝑗)
Một trong những lợi thế tìm ẩn của RVM so với SVM là quyết định dựa trên xác suất. Thứ hai, là số các vec tơ liên quan (relevance vectors) nhỏ hơn số các vec tơ hỗ trợ (support vectors) mà SVM sử dụng, điều này giúp cải thiện tốc độ trên tập dữ liệu kiểm tra (test). Nhược điểm chính của RVM là thời gian huấn luyện chậm hơn SVM. Tuy nhiên, tránh được tình trạng sử dụng chia lưới (cross – validation) [4].